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伴随 着 海量 数据 管理 技术 在 国民 经 济 以 及 互联 网 十 、 物 联网 、 移 动 计算 
等 各 个 领域 的 广泛 应 用 ,分 布 式 大 数据 搜索 .日 志 分 析 与 挖掘 、 数 据 可 视 化 、 
集群 管理 与 性 能 监控 等 问题 正 日 益 受到 IT 人 员 的 普遍 关注 。 开 源 的 、 基 于 
Lucene 的 全 文 搜索 引擎 Elasticsearch 以 其 独到 的 分 布 式 数据 处 理 能 力 发 挥 
了 重要 作用 。 根 据 国际 权威 数据 库 产 品评 测 机 构 DB-Engines 统计 ,从 2016 
年 1 月 起 ,Elasticsearch 已 超过 Solr 等 成 为 排名 第 一 的 搜索 引擎 类 应 用 ,并 
目 增长 势头 目前 仍 非常 强劲 。 在 Elasticsearch 基础 上 ,还 衍生 出 Logstash、 
Kibana、Beats、X-Pack、Elastic Cloud、Alerting、Graph、Reporting、 
ES-Hadoop 等 诸多 相关 组 件 , 它 们 构成 了 Elastic Stack 工具 集 的 核心 ,为 编 
程 人 员 提 供 了 分 布 式 、 可 扩展 的 信息 存储 和 全 文 检索 机 制 、 基 于 Logstash 的 
日 志 处 理 机 制 、 基 于 Kibana 的 挖掘 结果 可 视 化 机 制 等 。 不 仅 如 此 ,目前 还 出 
现 了 Security( 安 全 和 管理 插件 ,如 权限 控制 .加密 通信 和、 审计 等 )、Monitoring 
(性 能 监控 平台 等 )、Beats (提供 了 在 应 用 服务 器 间 传 输 事务 信息 的 
Packetbeat、 从 服务 器 端 传送 日 志 的 Filebeat、 分 时 段 采 集 服务 器 上 操作 系统 
和 服务 的 各 项 指标 的 Metricbeat、 负责 传输 Windows 事件 日 志 的 
Winlogbeat) 等 中 间 件 。 在 实时 大 数据 处 理 的 应 用 中 ,上 述 软 件 通 常 配合 使 
用 。Elastic Stack 可 帮助 企业 搜索 庞大 的 非 结构 化 信息 数据 库 。 目 前 ， 
Elasticsearch 拥有 几 千 个 重要 客户 ,覆盖 80 多 个 国家 ,从 一 线 互 联网 公司 到 
传统 行业 ,都 能 看 到 Elasticsearch 的 身影 ,全 球 很 多 著名 公司 (如 Facebook、 
eBay、IBM、Microsoft、Uber、Cisco、GitHub、 携 程 网 等 ) 都 在 使 用 它 。Elastic 
公司 的 开源 技术 越 来 越 受 到 众多 开发 者 的 青睐 ,已 成 为 大 数据 领域 分 析 工 具 
的 最 佳 选择 。 现 在 用 户 可 以 在 谷歌 GCP 云 平 台 上 运行 Elastic Cloud 产品 ， 
执行 搜索 、 分 析 以 及 可 视 化 任务 。 从 实战 的 角度 掌握 Elasticsearch、 
Logstash、Kibana、X-Pack、Beats 等 的 基本 使 用 方法 和 和 人 门 技巧 很 有 必要 。 

从 2015 年 开始 ,我 们 开始 介绍 和 普及 Elastic Stack 的 相关 技术 ,并 陆续 
出 版 了 《实战 Elasticsearch、Logstash、Kibana 分 布 式 大 数据 搜索 与 日 志 
挖掘 及 可 视 化 解决 方案 )( 第 1 版 )《 大 数据 搜索 与 日 志 挖 掘 及 可 视 化 方 
案 一 一 ELK Stack: Elasticsearch、Logstash、Kibana》( 第 2 版 )《 大 数据 搜索 与 
日 志 挖 掘 及 可 视 化 管理 方案 Elastic Stack 5: Elasticsearch 、Logstash、 
Kibana》( 第 3 版 )、 译 著 《 精 通 Elastic Stack) 等 多 部 技术 书籍 。 短 短 几 年 ， 
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Elastic Stack 发 展 很 快 ,我 们 的 上 述 图 书 也 已 重印 了 多 次 。 我 们 参考 了 部 分 读者 对 本 书 第 1 
版 .第 2 版 第 3 版 提出 的 意见 ,对 其 中 的 部 分 内 容 进 行 了 必要 的 补充 和 修改 .完善 ,对 新 推 
出 的 Elastic Stack 6 进行 了 介绍 。 

同 本 书 的 第 1 版 第 2 版 .第 3 版 一 样 ,第 4 版 仍 强调 实践 和 面向 初学 者 ,并 通过 实战 讲 
解 的 方式 让 读者 更 好 地 了 解 Elasticsearch、Logstash、Kibana、X-Pack、Beats 等 的 应 用 。 全 
书 涵盖 Elasticsearch 的 架构 简介 文档 索引 及 管理 、 信 息 检 索 与 聚合 Elasticsearch API 及 
其 应 用 (适当 兼顾 J2EE 和 Python 用 户 )、Elasticsearch 配置 与 集群 管理 ,基于 Logstash 的 
网 络 日 志 处 理 、 基 于 Kibana 的 分 析 结 果 可 视 化 、 基 于 X-Pack 插件 的 系统 运行 监控 应 用 、 基 
于 Beats 的 数据 解析 传输 、 应 用 实例 等 。 本 书 介绍 的 基于 Elastic Stack 6 架构 的 分 布 式 大 数 
据 搜索 \ 日 志 挖 掘 、 可 视 化 、 集 群 管理 与 性 能 监控 是 入 门 方 案 , 但 对 有 一 定 基础 的 中 、 高 级 使 
用 者 也 有 一 定 的 参考 和 工程 应 用 价值 。 

本 书 第 4 版 由 高 凯 拟定 写作 大 纲 ,高 凯 、 质 重阳 、 江 跃 华 合作 完成 ,并 由 高 凯 审 校 了 全 
书 。 在 本 书 的 写作 过 程 中 ,编者 得 到 了 多 方面 的 支持 与 帮助 。 高 成 亮 , 毛 雨 次 ` 聚 颖 杰 、 昔 
佳 、 谢 宇 翔 , 杨 聪 聪 , 侯 雪 飞 、 李 明 奇 . 杨 铠 成 .朱玉 、 杨 凯 、 李 娇 娥 、 徐 倩 、 吴 林 芳 等 均 给 予 了 协 
助 。 编 者 在 写作 过 程 中 参考 了 Elastic 官方 网 站 https://www. elastic. co/ 以 及 互联 网 上 众 
多 热心 网 友 提供 的 素材 。 本 书 的 顺利 完成 也 得 益 于 参考 文献 中 包含 的 相关 工作 及 研究 成 
果 , 在 此 说 向 这 些 文献 的 作者 热心 网 友 以 及 为 本 书 提供 帮助 的 人 士 致 以 诚挚 的 感谢 。 在 本 
书写 作 过 程 中 ,编者 也 得 到 了 清华 大 学 出 版 社 焦 虹 编审 的 大 力 支 持 和 帮助 ,在 此 一 并 表示 衷 
心 感谢 。 

由 于 我 们 的 学 识 水 平 有 限 , 书 中 不 妥 之 处 在 所 难免 ,恳请 广大 读者 批评 指正 。 
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The open source Elastic Stack can reliably and securely take data from any 
source, in any format，and search，analyze，and visualize it in real time. 
(1) Elastic Cloud, provision and manage a fleet of Elastic Stack clusters (and 
X-Packs) on any infrastructure，all while monitoring and managing everything 
from a single pane of glass; (2) Built and maintained by Elastic engineers, 
X-Pack is a single extension that integrates handy features you can trust across 
the Elastic Stack; (3) Beats is a platform for lightweight shippers that send 
data from edge machines to Logstash and Elasticsearch; (4) Logstash is a 
dynamic data collection pipeline with an extensible plugin ecosystem and strong 
Elasticsearch synergy; (5) Elasticsearch is a distributed，JSON-based search 
and analytics engine designed for horizontal scalability, maximum reliability, 
and easy management; (6) Kibana gives shape to your data and is the 
extensible user interface for configuring and managing all aspects of the Elastic 
Stack; (7) APM finds performance bottlenecks in your applications; (8) ES- 
Hadoop can quickly query and get insight into your big data. 

https://www. elastic. co 


随 着 大 数据 、 大 型 电 商 网 站 以 及 Web 2.0 技术 的 普及 应 用 , 越 来 越 多 的 软件 开发 者 需 
要 进行 海量 信息 的 实时 索引 、 检 索 ,完成 日 志 挖掘 可视化 .性 能 监控 等 与 信息 检索 ,大 数据 
搜索 .挖掘 相关 的 业务 。 虽 然 Lucene 是 许多 互联 网 公司 的 标准 信息 检索 工具 之 一 ,但 它 通 
常 不 提供 实时 检索 ,不 具备 良好 的 可 扩展 性 ,一 般 也 不 适合 针对 云 计 算 环境 的 大 数据 搜索 、 
挖掘 及 相应 的 数据 管理 工作 。 

Elastic Stack 是 以 Elasticsearch、Logstash、Kibana、Beats 等 为 主 ,并 涵盖 X-Pack、 
Elastic Cloud、Security( 以 前 称 为 Shield)、Alerting( 通 过 Watcher)、Monitoring( 以 前 称 为 
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Marvel) .Graph、Reporting、ES-Hadoop 等 大 数据 处 理 与 集群 管理 的 工具 集 , 也 是 目前 流行 
的 大 数据 分 析 的 开源 解决 方案 之 一 。2018 年 10 月 ,Elastic 公司 在 美国 纽约 证 券 交易 所 上 
市 ,这 表明 Elastic 公司 提供 的 大 数据 搜索 和 分 析 组 件 已 受到 行业 的 广泛 认可 ,也 给 了 数据 
搜索 应 用 的 开发 者 很 大 的 鼓舞 。 

以 Elasticsearch、Logstash、Kibana、Beats、X-Pack 等 几 个 开源 软件 为 主 的 数据 处 理工 
具 链 为 编程 人 员 提 供 了 分 布 式 、 可 扩展 的 信息 存储 机 制 . 基 于 Lucene 7. x 及 以 上 版 本 的 信 
息 检 索 机 制 、 基 于 Logstash 的 日 志 处 理 机 制 . 基 于 Kibana 的 挖掘 结果 可 视 化 工具 、 基 于 
Beats 的 性 能 监控 架构 以 及 对 Alerting 等 封装 后 形成 的 X-Pack 等 。 在 一 个 典型 的 使 用 场 
景 中 ,可 以 用 Logstash 处 理 日 志 等 信息 并 充当 “数据 搬运 工 ” 的 角色 ,用 Elasticsearch 作为 
后 台数 据 的 分 布 式 存储 平台 和 全 文 检索 工具 ,用 Kibana 作为 前 端的 可 视 化 展示 ,用 Beats 
作为 采集 系统 监控 数据 的 代理 ,用 X-Pack 完成 安全 .警告 监视 ,图形 和 报告 等 功能 。 

在 基于 数据 存储 和 管理 的 Elastic Stack 生态 链 中 ,往往 也 存储 诸如 产品 信息 .用 户 资 
料 文档 .日志 等 可 能 涵盖 对 象 (实体 人员、 角色 或 者 机 器 等 ) 之 间 的 引用 关系 的 数据 。 
Elastic Stack 为 数据 分 布 式 存储 .可视化 查询 .日 志 解析 和 系统 性 能 监控 等 创建 了 一 个 功能 
强大 的 管道 链 ,它们 互相 配合 ,共同 完成 大 数据 分 析 处 理工 作 。 很 多 国际 知名 企业 都 在 使 用 
Elasticsearch 完成 数据 处 理工 作 。 例 如 ,GitHub 已 升级 了 其 代码 搜索 程序 ,并 将 核心 架构 
由 Solr 转向 Elasticsearch; Wikimedia 也 启用 了 以 Elasticsearch 为 基础 的 全 新 搜索 框架 。 
根据 国际 权威 数据 库 产品 评测 机 构 DB-Engines (http://db-engines. com/en) 统计 ， 
Elasticsearch 已 成 为 排名 第 一 的 搜索 引擎 类 应 用 。 学 习 Elastic Stack ,对 于 大 数据 处 理 、 信 
息 检 索 及 搜索 引擎 研发 .日 志 处 理 与 分 析 、 控 掘 信息 可 视 化 .集群 性 能 监控 等 具有 重要 现实 
意义 。 图 1. 1 为 截至 2019 年 1 月 各 搜索 引擎 类 应 用 的 排行 榜 。 


18 systems in ranking, January 2019 

Rank Score 
Jan Dec Jan DBMS Database Model Jan Dec Jan 
2019 2018 2018 2019 2018 2018 
外“ 到 1 Elasticsearch 回 Search engine 143.44 -1.26 +20.69 
2. 2 +3 Splunk Search engine 81.43 -0.75 +17.42 
3. 3. 2. Solr Search engine 61.48 +0.13 -2.89 
4. 4 4 MarkLogic Multi-modal 加 14.26 -0.02 +3.05 
5. 5 5. Sphinx Search engine 7.69 -0.13 +1.44 
6. 6 §. _ Microsoft Azure Search Search engine 5.44 -0.24 +1.12 
7. 7 7. Algolia Search engine 3.49 -0.14 +0.54 
8. 8. 8. GoogleSearchAppliance Searchengine 3.05 +0.12 +0.31 
9. 9 9. Amazon cloudsearch Search engine 2.49 -0.15 -0.20 
10. 10. 10. Xapian Search engine 0.63 +0.03 +0.07 
11， 1 1 CrateDB Muti-modal 国 0.50 +0.06 -0.01 
12. 12. 12. SearchBlox Search engine 0.24 +0.00 +0.00 
13. 13. 个 14.。 searchxml Muki-model 加 0.07 -0.01 +0.07 
14. 14. 由 1 DBSight Search engine 0.05 -0.01 +0.04 
15. 15. wi4. Manticore Search Search engine 0.04 0.00 +0.04 

16. 16. FinchDB Murrmodal 加 0.03 +0.00 
17. 17. wi4. Exorbyte Search engine 0.01 -0.01 +0.01 
18. 18. 由 14， Indica Search engine 0.00 #0.00 #0.00 


图 1.1 截至 2019 年 1 月 各 搜索 引擎 类 应 用 的 排行 榜 
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Elasticsearch 是 一 个 分 布 式 的 开源 搜索 与 分 析 引擎 ,具有 分 布 式 集群 的 水 平 扩展 、 高 可 
靠 性 .易于 管理 等 诸多 优点 ,能 处 理 结构 化 、 非 结构 化 .时间 序列 等 异 构 数据 。Elasticsearch 
来 源 于 Shay Bannon 的 第 一 个 开源 项 目 Compass。Compass 是 一 个 基于 事务 的 对 象 /搜索 
引擎 映射 和 Java 持久 层 框架 ,但 Elasticsearch 目前 已 经 不 再 局 限于 单纯 的 搜索 业务 。 作 为 
开源 分 布 式 搜索 与 数据 处 理 平台 ,Elasticsearch 不 仅 是 一 个 库 , 还 是 一 个 基于 Lucene 构建 
的 开源 、 分 布 . 基 于 RESTful 的 信息 检索 框架 ,能够 实时 搜索 ,检索 性 能 高 ,并 采用 JSON 数 
据 格 式 以 及 Ruby DSL 设计 模式 ,提供 基于 Aggregations 的 统计 功能 ,提供 便捷 的 部 署 和 
设置 ,集群 可 方便 地 扩展 (可 以 扩展 到 上 百 台 服 务 器 ,处 理 PB 级 别 的 结构 化 或 非 结 构 化 数 
据 , 当 然 它 也 可 以 运行 在 单 台 PC 上 ) ;能 对 海量 规模 数据 完成 分 布 式 索引 与 接近 实时 的 信 
息 检 索 ,并 提供 多 种 管理 工具 ,各 种 相关 插件 也 可 方便 地 集成 到 Elasticsearch 中 ; 它 对 外 提 
供 一 系列 基于 Java 和 HTTP 的 API, 可 用 于 分 布 式 索 引 、 检 索 .日 志 分 析 与 数据 挖掘 等 ,上 且 
大 多 数 配置 是 可 修改 的 。Elasticsearch 语句 可 能 包括 如 下 几 部 分 : 

。 相应 的 HTTP 请 求 方法 或 者 变量 (如 GET、. POST .PUT、DELETE) 。 

。 集群 中 任意 一 个 节点 的 访问 协议 .主机 名 以 及 端口 。 

。 请 求 的 路 径 。 

。 一 个 JSON 编码 的 请 求 主体 (如 果 需 要 )。 


2 

RESTful(REpresentational State Transfer) 意 即 “ 表 现 层 状 态 转 化 ”, 是 目前 
流行 的 一 种 互联 网 软件 架构 ,具有 结构 清晰 、 符 合 标 准 、 易 于 理解 .扩展 方便 等 特点 。 这 
种 架构 下 的 每 一 个 URI 代表 一 种 资源 ,客户 端 通过 GET( 获 取 资 源 )、POST( 新 建 或 更 
新 资源 ) .PUT( 更 新 资源 ).DELETE( 删 除 资 源 ) 等 方式 来 对 服务 器 端的 资源 进行 操作 。 在 
Elasticsearch 中 ,RESTful 接口 URL 的 格式 是 http:// 一 ip address 二 :9200/ 一 index 二 / 
< 一 type>/[<id>]。 其 中 ,index 可 理解 为 数据 库 ,type 可 理解 为 数据 表 ,id 相当 于 数据 
记录 的 主键 。 增 、 删 、 改 分 别 对 应 HTTP 请 求 的 GET .DELETE、PUT 方法 。 对 PUT 
方法 来 说 ,调用 时 如 果 数 据 不 存在 ,就 创建 它 ; 如 已 存在 ,就 更 新 它 。Elasticsearch 可 能 
会 返回 一 个 HTTP 状态 码 (类 似 *200 OK” 等 ) 以 及 一 个 JSON 格式 的 主体 。 


在 使 用 Elasticsearch 时 ,有 很 多 基础 服务 可 以 用 插件 的 方式 来 提供 。 这 也 是 很 多 
Lucene 用 户 在 面 对 大 数据 应 用 时 转 而 使 用 Elasticsearch 的 原因 之 一 ,例如 和 MongoDB、 
CouchDB 同步 的 River 插件 中文 分 词 插件 、Hadoop 插件 .脚本 支持 插件 等 。 另 外 ， 
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Elasticsearch 对 分 布 式 数据 处 理 提供 支持 ,其 索引 能 拆 分 为 多 个 分 片 ,每 个 分 片 可 有 零 个 或 
多 个 副本 ,集群 中 的 每 个 数据 节点 都 可 承载 一 个 或 多 个 数据 分 片 ,并 且 能 协调 和 处 理 各 种 操 
作 ; 负 和 载 再 平衡 (rebalancing) 和 路 由 选择 (routing) 在 大 多 数 情 况 下 都 是 自动 完成 的 。 
Elasticsearch 6. x 带 来 了 许多 增强 功能 和 新 特性 ,部 分 特点 如 下 : 

(1) 使 之 能 够 从 Version 5 的 最 后 一 个 版 本 滚动 升级 到 Version 6 的 最 后 一 个 版 本 ,不 
需要 集群 的 完整 重启 ,实现 了 无 宕 机 在 线 升 级 .无 颖 滚动 升级 。 

(2) Elasticsearch 6 能 读 取 在 Elasticsearch 5.x 中 创建 的 Indices (但 不 能 读 取 在 
Elasticsearch 2. x 中 创建 的 Indices)。 可 以 选择 将 数据 保留 在 Elasticsearch 5. x 群集 中 ,并 
使 用 跨 群 集 搜索 同时 在 Elasticsearch 6. x 和 Elasticsearch 5. x 群集 上 进行 搜索 。 

(3) Kibana 中 的 X-Pack 插件 提供 了 一 个 简单 的 用 户 界面 ,可 帮助 用 户 重新 索引 旧 
Indices, 以 及 将 Kibana、Security 和 Watcher 索引 升级 到 Version 6。 它 在 现 有 集群 上 运行 
一 系列 检查 ,以 帮助 在 升级 之 前 更 正 问题 。 

(4) Elasticsearch 6. 0 以 前 ,如 果 节 点 由 于 网 络 问题 或 节点 重启 而 从 集群 断 开 连接 , 则 
节点 上 的 每 个 分 区 都 必须 通过 将 分 段 文件 与 主 分 片 进行 比较 并 复制 任何 不 同 的 分 段 来 重新 
同步 , 耗 时 费力 。Elasticsearch 6.0 使 用 序列 ID, 使 得 每 个 分 片 能 重 放 该 分 片 中 缺少 的 操 
作 ,使 恢复 过 程 更 加 高 效 。 

(5) 通过 索引 排序 ,只 要 收集 到 足够 的 命中 文档 ,搜索 就 可 以 终止 ,可 以 提高 搜索 效率 。 

Elasticsearch 的 基本 架构 如 图 1. 2 所 示 。 可 以 看 出 ,Elasticsearch 可 以 接收 本 地 的 、 共 
享 的 和 云 平 台 上 的 数据 。 在 Lucene 提供 的 基本 功能 基础 上 ,Elasticsearch 通过 构建 分 布 式 
索引 完成 对 大 数据 的 加 工 处 理 。 其 中 .Zen 用 于 节点 自动 发 现 和 master 节点 选举 ; EC2 
(Elastic Compute Cloud, Elastic 计算 云 ) 借 由 提供 Web 服务 的 方式 让 使 用 者 可 弹性 地 运行 
自己 的 Amazon 机 器 映像 ,提供 可 调整 的 云 计算 能 力 。 用 户 可 基于 RESTful 和 客户 端 (如 
Java 客户 端 ) 的 方式 ,借助 Elasticsearch 提供 的 API 完成 数据 操作 ,管理 等 工作 。 


1.1.1 Elasticsearch 的 安装 与 简单 配置 


“ 工 欲 善 其 事 , 必 先 利 其 器 。” 要 想 了 解 Elasticsearch, 要 从 该 软件 的 安装 入 手 。 传 统 上 ， 
Java 类 的 软件 及 使 用 往往 比较 烦琐 ,但 Elasticsearch 的 安装 却 非常 简单 ,几乎 是 “ 开 箱 即 
用 ”的 。 当 然 ,前提 是 需要 先 下 载 JDK 并 配置 相应 的 环境 变量 ,同时 确保 系统 可 用 内 存 大 
于 2GB。 

下 面 对 Elasticsearch 的 安装 进行 说 明 。 进 入 官网 http://www. elastic. co, 找 到 对 应 的 
Elasticsearch 软件 版 本 下 载 并 解压 。Elasticsearch 本 身 可 以 集成 一 些 基 本 插件 ,在 GitHub 
网 站 中 有 这 些 插件 对 应 不 同 Elasticsearch 版 本 的 官方 源码 ,可 以 按照 网 站 上 的 简介 来 安装 
使 用 。 
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RESTful 客户 端 Java 客 户 端 


传输 
Thrift Memcached HTTP 内 全 


发 现 脚本 第 三 方 插件 
Zen EC2 Mvel | | JavaScript | | Python || ~. 中 文 分 词 相关 工具 
索引 模块 搜索 模块 映像 插件 


分 布 式 Lucene 目 录 


网 关 
本 地 文件 系统 | 共享 文件 系统 Hadoop HDFS Amazon S3 


图 1.2 Elasticsearch 的 基本 架构 


Elasticsearch 索引 文件 的 大 小 只 是 原始 文件 大 小 的 一 部 分 ,这 可 为 集群 节省 服务 器 硬 
件 采 购 费 用 。Elasticsearch 的 config 文件 夹 里 面 有 3 个 配置 文件 : elasticsearch. yml 是 基 
本 配置 文件 ,jvm. options 是 Java 虚拟 机 配置 文件 ,log4j2. properties 是 日 志 配 置 文件 。 下 
面 简要 介绍 在 Ubuntu 系统 上 安装 Elasticsearch 6. 2. 3 的 主要 步骤 。 

首先 ,在 官网 上 下 载 对 应 系统 (如 Linux) 的 Elasticsearch 软件 包 , 进 入 安装 文件 所 在 目 
录 , 执 行 操作 tar -xvf elasticsearch-6. 2. 3. tar, gz 完成 安装 ,具体 步骤 不 再 袭 述 。 如 果 将 
Elasticsearch 作为 一 个 系统 服务 应 用 ,可 安装 Java Service Wrapper。 该 工具 在 其 官网 可 以 下 
载 ,网 址 是 http://wrapper. tanukisoftware. com/doc/english/download. jsp, 限 于 篇 幅 , 这 里 不 
再 著述 。 进 入 Elasticsearch 的 bin 文件 夹 ,执行 . /elasticsearch 命令 ,启动 Elasticsearch 。 


1 
若 关 闭 Elasticsearch, 可 在 正在 运行 Elasticsearch 的 终端 界面 中 按 下 组 合 键 
Ctrl 十 C 来 终止 该 节点 的 运行 ,此 时 该 节点 将 会 自动 从 群集 中 删除 自身 ,将 translog 同 
步 到 磁盘 ,并 执行 其 他 相关 的 清理 活动 。 如 果 Elasticsearch 正 作 为 一 个 系统 服务 应 用 
运行 , 则 应 使 用 相应 的 系统 服务 管理 程序 来 关闭 。 一 个 正确 、 有 序 的 关闭 操作 可 以 确保 
Elasticsearch 有 机 会 清除 和 关闭 未 完成 处 理 的 资源 。 
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之 后 ,打开 浏览 器 ,输入 类 似 http:// 过 ip address>: 一 port 二 ,会 显示 类 似 图 1. 3 的 内 
容 。 其 中 : 

(1) name: Elasticsearch 实例 的 名 字 , 默 认 情况 下 是 大 小 写字 母 和 数字 的 组 合 ,生成 后 
长 期 留存 ,其 设置 同样 是 在 config/elasticsearch. yml 文件 中 完成 的 。 

(2) version: 版 本 号 ,以 JSON 格式 表示 的 一 组 信息 ,其 中 的 number 字段 代表 当前 运 
行 的 Elasticsearch 版 本 号 ,build_snapshot 字段 代表 当前 运行 的 版 本 是 否 是 从 源 代码 构建 
而 来 的 ,lucene_version 表示 Elasticsearch 基于 的 Lucene 版 本 (图 1. 3 显示 该 版 本 是 基于 
Lucene 7. 2. 1 而 构建 的 ) 。 


"name" : "8FyHceb", 
"cluster_name" : "elasticsearch", 
"cluster_uuid" : "AGpcR3SxQ6uCT6tL1nxluw", 
"version" : { 
"number" : "6.2.3", 
"build_hash" : " 
"build date" : "2018-03-13T10:06:29.741383Z"， 
"build_snapshot" : false, 
"lucene_version" : "7.2.1", 
"minimum_wire_compatibility_version" : 


"5.6.0", 
:"5.0.0" 


"minimum_index_compatibility_version" 
} 


"tagline" : "You Know, for Search" 


} 
图 1.3 Elasticsearch 启动 后 的 界面 


(3) tagline: 包含 了 Elasticsearch 的 第 一 个 tagline, 内 容 为 "You Know, for Search”。 

图 1. 3 中 出 现 了 JSON 格式 的 数据 。 JSON (JavaScript Object Notation ) 是 基于 
JavaScript 的 轻 量 级 数据 交换 格式 ,是 独立 于 语言 的 文本 格式 。 在 JavaScript 中 处 理 JSON 
数据 不 需要 任何 特殊 的 API 或 工具 包 , 利 用 JSON 可 简单 地 表示 半 结 构 化 数据 ,而 且 目前 
多 数 编程 语言 支持 对 JSON 数据 的 解析 。JSON 的 基本 语法 表示 如 下 : 

(1) 数据 在 用 双 引 号 表示 的 "名 称 ":" 值 "对 中 ,如 *"name" :"smith"”。 

(2) 可 创建 包含 多 个 “" 名 称 " :" 值 "” 的 记录 ,如 {"name":"smith","email":"abc@ sijtu. 
org"} 等 , 它 表 示 以 上 两 个 数据 是 同一 记录 的 一 部 分 ,数据 间 用 逗号 分 隔 , 大 括号 中 的 内 容 表 
示 对 象 , 方 括号 中 的 内 容 表示 数组 。 

以 下 代码 是 对 相同 数据 的 XML 和 JSON 两 种 表示 形式 : 
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XML 示例 代码 : JSON 示例 代码 : 
< al versiqe= "1.0" enooding= nutE 8"2> { 
<book> "Pook": { 
< name> Elasticsearch Searching "name": " Elasticssardh Searching 
< /name> "author": { 
<author> mhame": "Gao", 
< name> Gac< /name> "sex": "male", 
< sex> male< /sex> "age": 45, 
< age> 45< /age> "oountry": "China" 
< country> China< /country> a 
< /author> "prioe": 10, 
<prioe> 10< /peice> k 
< /boop> } 


在 Elasticsearch 应 用 中 ,可 以 在 很 多 地 方 看 到 JSON 的 身影 。 
1.1.2 Elasticsearch API 的 使 用 方式 


Elasticsearch API 有 以 下 两 种 使 用 方式 : 

(1) 非 客 户 端 方式 。 通 过 HTTP 方式 的 JSON 格式 进行 调用 。HTTP 的 相关 参数 可 
在 elasticsearch. yml 中 进行 设置 (出 于 安全 考虑 ,也 可 禁用 HTTP 接口 ,只 需 在 配置 文件 中 
将 http. enabled 设置 为 false 即 可 ) 。 

(2) 客户 端 方式 。 对 Java 来 说 ,Elasticsearch 内 置 了 传输 客户 端 TransportClient, 它 是 
一 种 轻 量 级 传输 客户 端 ,可 用 来 向 远程 集群 发 送 请 求 。 它 并 不 加 入 集群 本 身 ,而 是 把 请 求 转 
发 给 集群 中 的 节点 。 客 户 端 都 使 用 Elasticsearch 的 传输 协议 ,通过 9300 端口 与 Java 客户 
端 进行 通信 。 集 群 中 的 各 个 节点 也 通过 9300 端口 进行 通信 。 


时 
Elasticsearch 的 9200 端口 是 HTTP 端口 ,9300 端口 是 传输 端口 。 


12 Logstash 


Logstash 是 一 款 灵 活 、 开 源 的 数据 转换 和 传递 的 管道 ,可 处 理 多 种 信息 来 源 的 日 志 、 事 
件 、 非 结构 化 数据 等 ,并 可 将 处 理 后 的 数据 输出 到 包括 Elasticsearch 等 在 内 的 多 种 数据 存 
储 目的 地 中 。Logstash 本 身 并 不 产生 日 志 , 它 仅 是 一 个 可 接收 多 种 多 样 的 日 志 输 入 、 经 处 
理 后 转发 到 多 个 不 同 目的 地 的 管道 。Logstash 6. 2 提供 新 的 API 插件 ,新 增 可 单独 配置 的 
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密 钥 库 , 用 于 保护 敏感 信息 。 同 时 ,6. 2 版 兼容 性 更 好 ,适应 面 更 宽 。 例 如 ,基于 Logstash、 
Kafka( 一 个 分 布 式 的 高 可 靠 消息 队列 十 数据 中 转 存储 程序 ,可 配置 时 间或 大 小 来 控制 删除 
策略 ) ,Elasticsearch、Kibana( 可 视 化 工具 ) 的 分 布 式 信息 处 理 架 构 , 能 有 效 管理 分 布 式 信 
息 。Logstash 能 够 通过 对 更 大 体 量 和 更 多 样 的 数据 的 利用 来 提升 日 志 挖掘 与 分 析 能 力 。 
有 关 Logstash 的 使 用 方法 , 详 见 第 6 章 。 


13 Kibana 


Kibana 是 一 款 开 源 的 数据 可 视 化 平台 。 在 数据 来 源 上 , 它 能 处 理 来 源 于 
Elasticsearch、Logstash、Elasticsearch for Apache Hadoop and Spark、Beats 以 及 依赖 于 第 
三 方 技术 的 Apache Flume、Fluentd 等 在 内 的 多 种 数据 形式 。Kibana 可 以 完成 搜索 .查看 、 
与 Elasticsearch 分 片 中 的 数据 进行 交互 等 任务 ,也 可 轻松 地 在 各 种 统计 图 、 表 格 和 地 图 中 
执行 高 级 数据 分 析 和 数据 可 视 化 操作 。Kibana 的 出 现 使 得 对 海量 数据 的 理解 成 为 可 能 ,其 
简便 、 基 于 浏览 器 的 界面 能 够 让 用 户 快速 创建 和 共享 动态 仪表 板 。 有 关 Kibana 的 使 用 方 
法 , 详 见 第 7 章 。 


14 Beats 


可 将 Beats 理解 为 一 个 代理 (agent) ,Beats 提供 了 用 来 实时 收集 日 志 的 Filebeat、 用 来 
收集 系统 基础 设置 数据 的 Topbeat 用 来 统计 收集 网 络 信息 的 Packetbeat 等 ,这 些 收集 到 的 
信息 经 过 处 理 后 可 以 输入 到 Elasticsearch 中 进行 后 续 处 理 等 (如 图 1. 4 中 的 左 侧 框图 所 
示 )。 其 中 ,Topbeat 用 来 收集 系统 负载 .内 存 、 硬 盘 以 及 每 个 进程 的 情况 , 它 是 跨 平台 的 ,会 
周期 性 发 送 指标 到 Elasticsearch 中 ;Packetbeat 是 开源 的 、 分 布 式 的 组 件 ,能 实时 嗅 探 每 个 
事务 的 请 求 与 响应 并 将 相关 数据 插入 Elasticsearch, 相 关 的 社区 也 添加 了 对 MongoDB 的 
支持 ,基于 UDP 和 TCP 的 DNS 支持 等 。 


Packetbeat 


~ Elasticsearch 上 一 | Kibana 


Filebeat 


Metricbeat | 六 一定 Libbeat 


Winlogbeat 


| Logstash 


采集 处 理 可 视 化 
1.4 基于 Elastic Stack 的 数据 解决 方案 架构 
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15 XPack 


X-Pack 是 Elastic Stack 的 扩展 插件 ,提供 安全 ,监控 告警 .报告 .图 关联 分 析 和 机 器 学 
习 六 大 扩展 组 件 , 无 须 额外 安装 插件 ,就 能 与 Elastisearch、Kibana 无 颖 对 接 。 虽 然 X-Pack 
中 的 组 件 被 设计 为 无 缝 协同 工作 ,但 仍 可 以 轻松 启用 或 禁用 其 中 的 部 分 功能 。 


16 具 他 


基于 Elastic Stack 的 数据 处 理解 决 方案 架构 示意 图 如 图 1.4 所 示 。 

Elastic Stack 还 包括 其 他 一 些 组 件 。 下 面 简 要 介绍 最 常用 的 两 个 组 件 。 

(1) Elasticsearch for Apache Hadoop and Spark。 虽 然 Hadoop 生态 链 ( 如 Spark、 
Hive、Storm、MapReduce、Cascading 等 ) 能 提供 多 维度 的 大 数据 分 析 能 力 , 但 其 快速 、 实 时 
检索 能 力 并 不 强大 。Elasticsearch for Apache Hadoop and Spark 是 位 于 存储 大 数据 的 
Hadoop 集群 与 Elasticsearch 之 间 的 中 间 件 。 例 如 ,在 图 1.5 所 示 的 Elastic Stack 相关 软 
件 产 品 结构 中 , 它 可 以 无 颖 连接 Hadoop 和 Elasticsearch 间 的 数据 ,能 提供 实时 检索 ,通过 
Kibana 更 可 方便 地 实现 Hadoop 生态 链 中 的 数据 流 可 视 化 。 


信息 可 视 化 Kibana Security 安全 、 保 护 
Notificati 示 
分 布 式 存储 、 罕 引 、[ Eliacticscarch oY 
数据 分 析 Monitoring 监控 、 管理 
搜集 、 解 析 数 据 。 | sao Graph 可 视 化 
开源 软件 链 商业 产品 与 支撑 软件 


图 1.5 Elastic Stack 相关 软件 产品 


(2) Elasticsearch Cloud。 企 业 级 管理 平台 ,可 配置 管理 和 监控 任何 规模 、 任 何 基 础 设 
施 中 的 Elasticsearch、Kibana 和 X-Pack, 同 时 通过 单个 控制 台 管理 一 切 。 它 通过 可 视 化 操 
作 , 将 所 有 Elastic 部 署 的 规模 调整 安全 保护 、 升 级 和 备份 操作 变 得 更 加 简单 、 高 效 。 


17 扩展 知识 与 阅读 


对 大 型 网 站 来 说 ,对 于 诸如 “本 周 有 和 多 少 新 注册 用 户 ?”“ 广 告 的 投放 效果 如 何 ? ”等 统计 
工作 来 说 ,Elastic Stack 以 其 灵活 的 处 理 ,简易 的 配置 .近乎 实时 的 检索 ,方便 的 集群 可 扩充 


(10 ， 大 数据 搜索 与 控 气 及 可 视 化 管理 方案 


Elastic Stack 6: Elasticsearch 、Logstash 、Kibana 、X-Pack、Beats ( 第 4 版 ) 


性 、 可 视 的 数据 挖掘 结果 等 诸多 优点 ,成 为 分 布 式 搜索 与 日 志 挖掘 及 可 视 化 的 首选 方案 之 
一 。 从 广义 上 说 ,Elasticsearch 也 属于 数据 库 范畴 ,但 它 能 够 轻松 地 进行 大 规模 的 横向 扩 
展 ,以 支持 对 PB 级 的 结构 化 和 非 结 构 化 海量 数据 的 处 理 。 由 于 关系 型 数据 库 对 全 文 检索 
功能 的 支持 相对 不 足 ( 如 传统 关系 型 数据 库 并 不 能 很 好 地 解决 大 数据 带 来 的 问题 ,单机 的 统 
计 和 可 视 化 工具 也 往往 比较 欠缺 ) ,所 以 一 些 实际 项 目 需要 将 关系 型 数据 库 中 的 大 数据 同步 
到 Elasticsearch 中 ,以 提供 更 加 强大 的 全 文 检索 功能 。 众 所 周知 , Elasticsearch 和 Solr、 
Nutch 等 都 是 基于 Lucene 构建 的 。 了解 Lucene 的 前 世 今生 ,更 加 有 助 于 学 习 好 
Elasticsearch。 有 关 Lucene 更 详细 的 内 容 ,参见 文献 (Michael,2011)。 文 献 ( 韩 陆 ,2014) 介 
绍 了 基于 Java 标准 规范 实现 RESTful 的 方法 ,这 对 于 深刻 理解 JAX-RS 标准 和 API 设 计 ， 
了 解 Jersey 的 使 用 要 点 和 实现 原理 以 及 基于 RESTful 的 Web 服务 的 设计 思想 是 很 有 帮助 
的 。 文献 ( 杨 传 辉 ,2014) 系统 讲述 了 构建 大 规模 存储 系统 的 核心 技术 和 原理 ,分 析 了 
Google、Amazon、Microsoft 和 阿里 巴巴 的 大 规模 分 布 式 存 储 系统 的 原理 。 有 关 现 代 信 息 检 
索 发 展 、 倒 排 索引 构建 、 搜 索引 擎 系统 研发 等 可 以 参阅 文献 (Ricardo,2012) 和 文献 (高 凯 ， 
2014)。 有 关 信息 检索 .搜索 引擎 等 核心 技术 的 通俗 叙述 ,可 以 参阅 文献 (吴军 ,2013)。 另 
外 ,Elasticsearch 扩展 性 非常 好 ,有 很 多 官方 和 第 三 方 开 发 的 插件 ,读者 可 以 查阅 Elastic 官 
方 技术 文档 、GitHub 开源 库 ,获取 最 新 信息 。 
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本 章 简要 介绍 了 Elastic Stack 的 背景 和 组 成 。Elastic Stack 允许 用 户 处 理 来 源 各 异 、 
种 类 不 同 的 日 志和 数据 ,并 以 接近 实时 的 可 搜索 的 方式 来 处 理 信息 和 可 视 化 分 析 结 果 。 本 
章 给 出 了 背景 知识 ,对 Elastic Stack 中 出 现 的 概念 进行 了 说 明 。 学 习 本 章 内 容 后 ,应 该 了 解 
JSON .RESTful 以 及 Elasticsearch 插件 等 的 用 法 。 


Chapter Ip 2 A 网 


文档 索引 及 管理 


Elasticsearch is a highly scalable open-source full-text search and analytics 
engine. lt allows you to store, search, and analyze big volumes of data quickly 
and in near real time. lt is generally used as the underlying engine/technology 
that powers applications that have complex search features and requirements. 


https://www. elastic. co 


在 Elasticsearch 中 ,对 文档 进行 索引 等 操作 时 , 既 可 以 通过 RESTful 接口 进行 操作 ,也 
可 以 通过 Java 客户 端 进行 操作 。 本 章 介绍 基于 RESTful 的 文档 索引 与 管理 方法 ,面向 客 
户 端的 编程 方法 参见 第 4 章 。 


21 文档 索引 概 太 


在 信息 检索 过 程 中 ,文本 数据 首先 要 经 过 加 工 处 理 , 才 能 被 检索 到 ,而 这 个 加 工 处 理 过 
程 就 是 建立 索引 文件 (通常 是 倒 排 索引 文件 ) 。 一 般 的 信息 检索 过 程 是 用 户 通 过 接口 提交 查 
询 请 求 ,在 索引 文件 中 检索 出 相关 结果 ,并 按 相 关 度 排序 之 后 返回 给 用 户 。 可 见 ,建立 文档 
索引 是 基础 性 的 加 工 过 程 。 由 于 索引 文件 通常 要 面向 大 量 用 户 的 查询 ,因此 索引 文件 的 设 
计 要 尽量 高 效 , 以 便 由 索引 项 快速 定位 到 相应 文档 。 当 前 文档 索引 方法 有 倒 排 索 引 、 后 绥 数 
组 索引 、 签 名 文件 索引 等 ,其 中 倒 排 索引 是 用 得 最 广 的 方法 ,在 Lucene 中 采用 的 就 是 经 典 的 
倒 排 索引 技术 。 目 前 成 熟 的 信息 检索 系统 几乎 普遍 采用 这 种 索引 方法 。 可 以 说 , 倒 排 索引 

倒 排 索引 文件 可 看 作 是 一 种 描述 了 一 个 词 项 集合 terms 中 的 元 素 和 一 个 文档 集合 docs 
中 的 元 素 的 对 应 关系 的 数据 结构 。 若 记 NN 为 文档 集合 的 大 小 ,M 为 词 项 集合 的 大 小 ,docs 一 
{di,ds ,dn),terms 二 人,tz，… tm) , 则 倒 排 索引 文件 可 给 出 7 出 现在 哪些 di 中 (或 4 
在 di; 中 出 现在 哪些 位 置 ) 的 信息 。 一 般 地 , 倒 排 索引 文件 从 逻辑 上 可 分 为 两 部 分 : 一 部 分 
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用 于 表示 文档 的 索引 项 ; 另 一 部 分 则 由 多 个 位 置 表 组 成 ,每 个 位 置 表 和 索引 中 的 某 个 索引 项 
相对 应 ,并 记录 所 有 出 现 过 该 索引 项 的 文档 及 该 索引 项 在 文档 中 的 具体 位 置 ,以 便 计 算出 索 
引 项 之 间 的 相 邻 关系 。 图 2. 1 是 一 个 倒 排 索引 文件 结构 示意 图 ,表示 在 文档 di 和 ds 中 出 
现 过 ”应 用 ?索引 项 ,而 在 文档 ds 和 ds 中 出 现 过 “技术 ”索引 项 。 由 于 文档 中 上 述 两 个 索 
引 项 是 相 邻 的 (分 别 位 于 51 和 52 位 置 ) ,因此 * 应 用 技术 ”就 应 该 出 现在 d; 文档 中 。 如 果 要 
检索 "应 用 技术 "一 词 , 则 首先 在 倒 排 索引 文件 中 找到 包含 应 用 "一 词 的 候选 文档 集合 ,然后 
从 候选 文档 集合 中 筛选 出 在 这 个 索引 项 后 紧 跟 * 技 术 ” 的 文档 (是 d; ,而 非 di 或 d;)。 这 种 


方式 可 以 加 快 检索 速度 (高 凯 ,2014) 。 
一 


应 用 上 一 | 4d,, 10,68,90 | 心 51 


技术 上 一 一 一 4d,,52,88 d,, 60, 80 


索引 位 置 表 文档 
图 2.1 倒 排 索引 文件 示意 图 


Elasticsearch 实现 准 实 时 索引 的 关键 就 是 将 新 收 到 的 数据 写 到 新 的 索引 文件 里 。 倒 排 
索引 机 制 会 将 文本 信息 切 分 成 称 为 token 的 信息 单元 ,再 利用 这 些 token 构造 倒 排 索引 。 
索引 文件 一 般 由 一 个 或 多 个 子 索 引 段 (segment) 组 成 ,生成 子 索引 段 的 数据 则 来 源 于 内 存 
中 的 缓存 。 除 了 子 索引 段 外 ,索引 文件 中 还 有 一 个 commit 文件 ,用 来 记录 索引 内 所 有 的 子 
索引 段 信息 。 假 设 系统 检测 到 当前 索引 有 M 个 子 索 引 段 ,对 新 接收 的 进入 内 存 缓冲 区 中 的 
数据 ,首先 以 默认 值 1s 的 时 间 间 隔 将 其 刷新 到 文件 系统 的 缓存 中 去 ,这 样 系统 即 可 准 实 时 
地 检索 到 这 个 子 索引 段 中 的 信息 。Elasticsearch 也 提供 了 单独 的 /_refresh 接口 ,如果 需要 
缩短 这 个 默认 的 1s 时 间 间 隔 , 可 以 通过 调用 这 个 接口 来 实现 个 性 化 的 操作 。 同 时 ， 
Elasticsearch 将 数据 定时 输出 到 硬盘 , 子 索 引 段 数量 增加 到 M 十 1 个 ,并 同步 更 新 commit 
文件 。 随 着 时 间 的 推移 ,上 述 方法 的 弊端 就 会 显现 , 即 可 能 存在 大 量 零散 的 子 索 引 段 文件 。 
为 此 ,Elasticsearch 会 在 后 台 和 运行 相 关 的 任务 ,定期 地 主动 将 这 些 零散 的 子 索 引 段 数据 归 
并 ,尽量 让 索引 只 保留 少量 的 、 较 大 的 子 索 引 段 文件 。 当 归并 完成 后 ,检索 请 求 将 在 这 些 归 
并 后 的 较 大 的 子 索 引 段 文件 上 进行 。 在 具体 实施 中 ,归并 线程 是 按照 一 定 的 策略 来 挑选 子 
索引 有 段 进行 归并 的 ,相关 技术 细节 可 参阅 文献 ( 侥 琛 琳 ,2015 ) 。 
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22 ”head: 日 asticsearch 用 于 数 根 管理 的 工具 之 一 


head 是 一 种 与 Elasticsearch 集群 交互 的 Web 前 端 工 具 。head 不 是 Elastic 公司 的 系 
列 化 产品 ,但 利用 它 ,能 够 便捷 地 浏览 和 操作 集群 中 的 数据 ,为 开发 人 员 和 用 户 提供 直观 的 
可 视 化 界面 。 在 Elasticsearch 早期 版 本 中 ,head 以 插件 的 形式 整合 到 其 安装 主 目 录 下 的 
plugins 目录 中 ;而 在 Elasticsearch 5.0 及 之 后 的 版 本 中 ,head 变 为 独立 运行 的 本 地 或 服务 
器 程序 ,用 户 可 以 在 GitHub 网 站 中 下 载 源 程序 代码 ,在 本 地 运行 或 搭建 服务 器 启动 head。 


2 
访问 GitHub 网 站 ,在 文件 列表 的 左上 方 选择 master, 将 程序 源 代码 ZIP 压缩 
包 保存 到 本 地 并 解压 。 


如 果 让 head 作为 服务 器 程序 部 署 和 运行 , 则 需要 借助 npm 和 Grunt 组 件 完成 。npm 
是 随同 node.js 一 起 安装 的 包 管理 工具 ,能 解决 node. js 代码 部 署 上 的 很 多 问题 。Grunt 是 
-个 基于 任务 的 JavaScript 命令 行 构 建 工 具 ,Grunt 及 其 插件 是 通过 npm 安装 并 管理 的 。 
从 互联 网 下 载 并 安装 node. js( 可 使 用 查看 软件 版 本 的 命令 node -v 和 npm -v 来 测 
试 其 能 否 成 功 运 行 )。 在 确认 npm 工作 正常 之 后 ,进入 解压 后 的 elasticsearch-head-master 
目录 ,使 用 终端 命令 sudo npm install 安装 该 目录 中 的 一 些 组 件 ( 包 括 grunt 的 一 部 分 必要 
组 件 ) ,部 分 安装 过 程 如 图 2.2 所 示 。 


安 


图 2.2 使 用 npm 安装 服务 器 程序 的 组 件 


‘ 
这 里 对 head 的 安装 需要 提升 权限 执行 。Linux 用 户 需 要 在 命令 前 加 sudo, 并 
输入 当前 用 户 的 密码 ;Windows 用 户 不 必 加 sudo, 但 需要 以 管理 员 身 份 运 行 控制 台 。 


二 
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安装 过 程 结束 后 ,直接 使 用 终端 命令 npm run start 启动 服务 器 ,如 图 2. 3 所 示 。 


图 2.3 启动 head 服务 器 


从 Grunt 程序 的 输出 信息 中 不 难看 出 ,该 服务 器 占用 9100 端口 ,因此 可 在 浏览 器 中 输 
入 http://localhost:9100 来 访问 head。 在 Elasticsearch 启动 时 ,head 将 自动 检测 其 来 自 
9200 端口 的 信息 并 自动 完成 连接 Elasticsearch 的 工作 。 需 要 说 明 的 是 ,为 防范 跨 域 脚本 攻 
击 , 在 尚未 为 Elasticsearch 配置 cors 之 前 ,head 不 会 与 Elasticsearch 连接 。 此 时 应 在 其 安 
装 主 目 录 下 的 config/elasticsearch. yml 配置 文件 末尾 添加 如 下 两 行 配置 信息 并 重启 


Elasticsearch : 


http.cors.enabled: true 
http.cors.allow- origin: "x*™ 


1 

上 述 第 二 行 配置 信息 中 的 * 表示“ 允许 从 任何 来 源 跨 域 访问 ”, 这 样 的 配置 存 
在 一 定 风险 。 如 需要 进行 更 安全 的 配置 ,可 将 * 改 为 远程 主机 地 址 的 正则 表达 式 , 以 过 
滤 不 安全 的 访问 来 源 。 


如 果 仅 需 让 head 在 本 地 运行 ,直接 在 浏览 器 打开 head 源 程序 目录 中 的 index. html 文 
件 即 可 ,但 要 注意 做 好 上 文 提 到 的 两 行 关 于 cors 的 配置 。 

完成 上 述 过 程 之 后 ,启动 Elasticsearch 并 在 head 中 检查 连接 是 否 正常 。 如 果 一 切 正常 , 那 
么 head 会 显示 和 早期 版 本 类 似 的 界面 ,如 图 2.4 所 示 , 其 中 每 一 个 小 方 格 均 代表 一 个 数据 分 
片 (shard) ,横向 每 一 行 均 代表 一 个 节点 (node) ,纵向 每 一 列 均 代表 一 个 索引 (index) 。 


| LE 


¢300[0 
Elasticsearch 


SDSFWx! 


* se 回回 加 回国 ”回回 回 回 加 5 加 本 加 四 


e ur» 回回 回回 因 回国 回 图 区 习 回 区 


图 2.4 成 功 运行 的 head 
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图 2.4 中 开启 了 两 个 节点 (包括 一 个 主 节点 和 一 个 从 节点 )。 在 初次 安装 Elasticsearch 
之 后 , 若 要 开启 两 个 或 多 个 节点 ,应 该 预先 在 elasticsearch. yml 配置 文件 末尾 加 入 如 下 配置 
(表示 允许 最 多 开启 3 个 节点 ) 并 重新 开启 各 节点 : 


node.max local storage nodes: 3 


1 
区 head 并 不 是 Elastic 官方 提供 的 可 视 化 工具 ,为 使 Elasticsearch 索引 中 的 数据 
更 加 直观 ,查询 更 加 简便 ,本 书 接 下 来 的 几 章 将 继续 使 用 head 进行 有 关 查 询 命令 的 介 
绍 。Elastic 官方 推出 的 Kibana 及 其 X-Pack 插件 是 与 Elasticsearch 配套 的 可 视 化 管理 
方案 ,推荐 读者 在 项 目 实战 中 使 用 带 有 X-Pack 插件 的 Kibana。 


23 建立 泰 引 


在 Elasticsearch 中 ,可 通过 index API 来 对 文档 进行 索引 操作 。 在 建立 索引 文件 时 ,可 
以 设置 分 布 式 索引 文件 的 shards 数量 和 replicas( 副 本 ) 数 量 。 例 如 ,可 通过 使 用 {index}/ 
_settings( 指 定 index 名 称 的 配置 ) 子 句 修 改 索引 文件 的 配置 。 


‘ 

区 和 在 执行 下 面 的 代码 段 2. 1 时 ,可 以 使 用 终端 中 的 curl 命令 ( 见 代码 段 2.1, 这 
里 以 Ubuntu 系统 为 例 , 安 装 curl 需 使 用 终端 命令 sudo apt install curl) 。 也 可 以 使 用 
Elasticsearch 的 Web 前 端 ,在 该 界面 中 提供 了 “复合 查询 ”标签 页 ,其 中 的 “查询 ”窗口 有 
3 行 输入 框 , 在 第 一 行 填写 Elasticsearch 在 9200 端口 的 URL 地 址 (如 localhost:9200) ， 
在 第 二 行 填写 与 索引 相关 的 信息 (可 参照 代码 段 2. 1) ,在 第 三 行 填写 JSON 格式 的 查询 
代码 。 此 外 ,Elastic Stack 推出 的 Kibana 也 提供 了 专用 于 执行 此 类 代码 的 Dev Tools， 
其 书写 格式 与 Elastic 官网 一 致 。 有 关 Kibana 及 Dev Tools 中 的 代码 书写 格式 的 相关 
内 容 , 将 在 第 7 章 进行 介绍 。 


代码 段 2. 1 实现 了 对 名 为 myweibol 的 索引 文件 的 创建 工作 (注意 是 通过 PUT 方式 向 
系统 提交 索引 请 求 ) ,方法 中 指定 了 索引 数据 的 shards 数量 和 replicas 数量 (如 果 不 指定 它 
们 ,系统 会 采用 默认 值 ) ,参数 -d 后 面 是 拟 提 交 的 索引 数据 。 


代码 段 2.1: 使 用 DSCN 数 据 格式 创建 索引 。 执 行 后 会 新 建 一 个 名 为 mweibol 的 新 的 索引 文件 
curl - H "Content- Type: applicaticn/json' - XPUT "httbp://localhost:9200/ 
myweibol/' -d '{ 
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1 16) 
\、_ 


大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 ; 


Elastic Stack 6: Elasticsearch 、Logstash 、Kibana 、X-Pack、Beats ( 第 4 版 ) 


在 Elasticsearch 6. x 及 以 后 的 版 本 中 ,向 其 发 送 的 curl 请 求 中 必须 显 式 加 入 
Content-Type 类 型 。 本 章 给 出 的 例子 通过 使 用 参数 -H 'Content-Type:application/json' 
指定 了 请 求 中 传递 的 内 容 为 JSON 格式 。 


也 可 以 采用 _settings 子 句 实 现 其 他 相应 功能 。 代 码 段 2. 2 修改 了 myweibol 索引 文件 
并 将 其 replicas 数量 改 为 指定 数值 。 图 2. 5 显示 该 索引 的 副本 已 变 成 设 定 的 数值 了 。 


图 2.5 索引 文件 属性 信息 


代码 段 2.2: 修改 索引 文件 
curl - H 'Content- Type: application/jscn' ~ XEUT 'localhost:9200/myweibol/ 
_settings' ~-d '{ 
nindex" : { 
"nunber of replicas" : 7 
$F 
中 


Ep 上 述 语句 中 的 number_of_replicas 参数 用 于 设置 当前 索引 的 副本 数量 , 它 也 
可 换 成 如 下 参数 : 
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。 blocks. read_only: 如 设 为 true, 则 当前 索引 只 允许 读 , 不 允许 写 或 更 新 。 
。 blocks. read: 如 设 为 true, 则 禁止 读 取 操 作 。 

。 blocks. write: 如 设 为 true, 则 禁止 写 操作 。 

。 blocks. metadata: 如 设 为 true, 则 禁止 对 metadata 操作 。 


对 于 {index}/_settings 子 句 , 如 果 选 择 的 HTTP 操作 类 型 是 GET( 见 下 面 的 XGET 语 
句 ), 则 可 以 获取 当前 索引 文件 的 较为 详细 的 配置 信息 。 


curl -H 'Content— Type: applicaticn/json' ~ XEET 'http://localhost:9200/myweibol/ settings' 


返回 值 如 下 : 


{ 
vmyweibol" : { 
"settings" : { 
"index" : { 
"creation date" : "1526659332943", 
"number of shards" : "5", 
"number of replicas" : "7", 
"uuid" : "uBF91gZBRYOOtHGSK7P9gg", 
"version" : { 
"created" : "6020499" 
}, 
"provided name" : "myweibol" 


采用 如 下 语句 ,可 一 次 性 获得 多 个 索引 文件 的 配置 信息 (下 面 的 例子 返回 weibo、 
weibo2 这 两 个 索引 文件 ): 


curl - H ‘Content— Type: application/json' - XGET 'http://localhost:9200/weibo, weibo2/_settings' 


还 可 以 使 用 _all 参数 获取 所 有 索引 的 配置 信息 : 


curl -H "Content- Type: applicaticn/json' - XEET "http://localhost:9200/_all/ 
settings' 


也 可 以 使 用 通配符 获取 一 批 索引 的 配置 参数 : 
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curl -H "Content- Type: applicaticn/json' - XGPT "http://localhost:9200/weibox / settings 

也 可 以 通过 指定 JSON 格式 的 数据 向 指定 的 索引 文件 中 插入 数据 并 建立 相应 的 索引 。 
代码 段 2. 3 新 建 了 一 个 索引 文件 (名 为 myweibo3) ,并 使 用 _doc 参数 向 其 中 写 入 JSON 格 
式 的 字段 信息 (这 些 字段 包括 user、post_date、mymessage 等 )。 此 时 在 请 求 中 未 指定 文档 
id(Elasticsearch 将 自动 为 这 段 信息 分 配 一 个 随机 id)。 注 意 该 请 求 以 POST 方式 提交 , 执 
行 完毕 后 的 结果 如 图 2.6 所 示 。 


代码 段 2.3: 向 索引 文件 中 插入 JSQN 格 式 的 数据 ,自动 生成 文档 jd 
curl - H 'Content— Type: application/json' ~ XFOST ‘http://localhost:9200/ 
myweibo3/ doc' -d '{ 

"user": "Alan", 

"Post date": "2018- 01- 01T08:00:00", 

"mymessage": "This is an exanple cn creating an index" 


查询 20 个 分 片 中 用 的 20 个 , 1 命中 . 耗 时 0.004 秒 


LI-9pe _ -由 


图 2.6 向 新 建 的 索引 文件 中 插入 指定 的 信息 


Elasticsearch 的 内 置 字段 主要 有 _all、field_names、id、index、 meta、 
_parent、routing、source、type、uid 等 ,字段 类 型 主要 有 text/keyword \integer/long、 
float/double .boolean .date 等 。 在 图 2.7 中 显示 了 _index、type、_id 等 内 置 字 段 ( 其 含 
义 不 再 丙 述 )。 图 2.7 中 显示 的 其 他 字段 ( 即 user、post_date、mymessage) 是 用 户 以 
JSON 格式 自 定义 的 字段 。 


代码 段 2.4 是 向 新 建立 的 索引 文件 myweibo3 中 添加 文档 的 语句 ,这 个 文档 共有 3 个 
字段 (分 别 是 user\post_date.mymessage) 。 和 代码 段 2. 3 的 语句 不 同 的 是 ,在 URL 中 的 参 
数 3 是 为 新 建立 的 文档 指定 的 id 号 ,最 后 以 参数 _create 结束 ,注意 此 时 该 请 求 使 用 PUT 
方式 提交 。 该 语句 的 执行 结果 如 图 2.7 所 示 。 


代码 段 2.4: 指定 新 插入 索引 数据 的 这 号 
curl —H 'Content- Type: application/json' - XEUT "htbp://localhost:9200/ 
myweibo3/_doc/3/_create' -d '{ 
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"post_date": "2018- 01- 01714:00:00", 
"mmymessage": "Hello Tom" 
站 


查询 20 个 分 片 中 用 的 20 个 . 2 命中 . 耗 时 0.005 秒 

-index a ES weer | post_dnte mymessage 

myweibo3 -=_doc 1m8gdGMB27N6d9FAnKf8 1 Alan 2018-01-01T08:00:00 Thisis an example on creating an index| 
myweibo3 _doc 3 和 LiMing 2018-01-01T14:00:00 _ Hello Tom 


图 2.7 向 指定 的 索引 文件 中 插入 指定 内 容 的 信息 


在 建立 好 索引 文件 后 ,可 以 通过 在 终端 中 输入 命令 来 获取 指定 索引 文件 的 状态 信息 , 例 
如 curl -H 'Content-Type:application/json' -XGET localhost:9200/{index}/_stats, 注 意 这 
里 使 用 了 /_stats 参数 。 图 2. 8 给 出 了 查询 索引 文件 返回 的 状态 信息 。 


v "primaries":{ 
v "docs™:{ 
"count :0， 
"deleted: 0 


Y store { 
"size_in_bytes”: 1150 
v “indexing": { 
"index_totar: 0, 
“index_time_in_millis*: 0, 
"index_current”: 0, 
“index_failed": 0, 
"delete_total": 0, 
“delete_time_in_millis™: 0, 
"delete_current”: 0, 
“noop_update_total”: 0, 
"is_throttled": false, 
“throttle_time_in_millis”: 0 


"exists_time_in_millis”*: 0, 
“missing_total": 0, 
“missing_time_in_millis™: 0, 
“current”: 0 


vv “store”: { 
"size_in_bytes" 1150 

v "indexing": { 
"index_totar: 0, 
“index_time_in_millis”*: 0, 
“index_current”: 0, 
“index_failed": 0, 
"delete totar: 0, 
"delete time_in_millis… 0, 
“delete_current”: 0, 
"noop_update total 0, 
"is_throttled: false, 
"throttle time_in_millis“: 0 


vv get:{ 
“total": 0, 
"time_in_millis”: 0, 
"exists_total”: 0, 
"exists_time_in_millis”: 0, 
"missing totar 0, 


“missing_time_in_millis*: 0, 


"current 0 
} 


上 
v "store":{ 
“size_in_bytes": 1150 
}， 
v "indexing": { 
"index_total 0, 
“index_time_in_millis™: 0, 
“index_current”: 0, 
“index_failed": 0, 
“delete_total": 0, 
"delete_time_in_millis": 0, 
“delete_current”: 0, 
"noop_update total 0, 
"is_throttled": false, 
“throttle_time_in_millis*: 0 
vv "get { 
“total": 0, 
"time_in_millis": 0, 
“exists_total": 0, 
"exists_time_in_millis 0, 
“missing_totar": 0, 
“missing_time_in_millis™: 0, 


图 2.8 查询 索引 文件 返回 的 状态 信息 


在 返回 的 结果 中 可 以 看 到 多 个 对 象 ,其 中 ,primaries 是 当前 节点 之 上 的 所 有 主 分 片 的 
信息 ,total 是 所 有 分 片 及 副本 的 信息 ,indices 是 当前 操作 的 索引 文件 的 信息 。 另 外 ,这 些 对 


象 都 包含 如 下 对 象 : 


。 docs: 显示 被 索引 文档 的 信息 ,其 中 的 count 值 表示 所 描述 的 索引 中 的 文档 数量 。 
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。 store: 反映 索引 的 大 小 以 及 throttle 信息 等 。 

。 indexing: 索引 操作 信息 。 

。 get: 实时 获取 操作 信息 。 

。 search: 搜索 操作 信息 。 

以 上 JSON 对 象 是 并 列 关系 ,结构 相同 。 由 于 get 对 象 内 容 过 长 ,因此 search 对 象 未 能 
容纳 在 图 2. 8 中 。 事 实 上 search 对 象 是 最 后 一 个 对 象 , 排 在 get 对 象 之 后 。 


‘? 
区 坦 询 时 也 可 同时 给 出 多 个 索引 的 统计 信息 ,如 /索引 1， 索引 2， 索引 3/ 


_stats” 等 。 


24 通过 映像 配置 素 引 


在 关系 型 数据 库 管 理 系统 中 建立 数据 表 时 要 定义 其 字段 名 及 其 数据 类 型 ,与 此 类 似 , 映 
像 (mappings) 是 对 Elasticsearch 中 索引 字段 名 及 其 数据 类 型 的 定义 ,但 映像 要 比 关系 型 数 
据 库 管理 系统 中 的 数据 结构 定义 灵活 得 多 。 其 实 , 在 使 用 Elasticsearch 时 ,不 指定 映像 也 
是 可 以 的 (因为 Elasticsearch 会 自动 根据 数据 格式 定义 它 的 类 型 ) ,但 如 果 需 要 对 某 些 字段 
添加 特殊 属性 (如 该 字段 是 否 分 词 . 是 否 存 储 、 使 用 什么 样 的 分 析 器 等 ) ,就 必须 添加 和 设置 
映像 。 在 为 索引 文件 添加 映像 时 有 两 种 方法 ,一 种 是 定义 在 配置 文件 中 , 另 一 种 是 在 运行 时 
手动 提交 映像 。 


, 

区 jp ” 喘 像 默认 可 以 为 数据 规定 多 种 数据 类 型 (type) 。 在 Elasticsearch 升级 到 5. 0 
之 后 ,去 掉 了 原 有 的 string 类 型 ,添加 了 新 的 text 和 keyword 类 型 。 其 中 ,text 类 型 适 
用 于 电子 邮件 正文 ,产品 描述 等 需要 进行 全 文 索引 的 信息 ,而 keyword 适用 于 电子 邮 
箱 地 址 ,主机 名 、 网 络 传输 状态 码 、 国 际 邮政 编码 、 标 记 文本 等 能 够 精确 命中 字段 的 


2.4.1 在 索引 中 使 用 映像 


代码 段 2. 5 就 是 手动 提交 映像 的 例子 。 代 码 运行 后 ,会 创建 名 为 weibo 的 索引 文件 ,其 
中 有 一 个 名 为 user 的 字段 ,其 数据 类 型 为 text 且 设 置 为 不 对 该 字段 内 容 进行 分 词 。 注 意 ， 
在 代码 段 2. 5 中 ,也 同时 指定 了 索引 文件 的 shards 数 和 replicas 数 。 
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代码 段 2.5: 通过 meppings 设置 index 中 某 个 type 下 的 field 中 的 细节 信息 
curl —H 'Content- Type: application/json' - XFOST localhost:9200/weibo/_doc -dr 
{ 

"settings" : { 


mappings" : { 
"Properties" : { 
"user" : { 
"type” : "text", 
"index" : false 


‘ 

在 Elasticsearch 5.x 及 以 前 的 版 本 中 ,每 个 索引 中 可 以 定义 若干 个 类 型 。 然 
而 ,类 型 在 实际 应 用 中 存在 一 些 问 题 ,如 不 同名 称 的 类 型 .同名 字段 的 映像 设置 必须 保 
持 一 致 ,这 与 关系 型 数据 库 中 数据 表 的 概念 存在 认 知 上 的 冲突 。Elastic 公司 计划 在 以 
后 的 大 版 本 更 新 过 程 中 移 除 类 型 的 概念 ,在 Elasticsearch 6.0 及 以 后 ,7.0 之 前 的 版 本 
中 , 仅 允许 用 户 创建 单 一 类 型 (例如 上 面 例子 中 统一 使 用 的 _doc)。 


2.4.2 管理 /配置 映像 
一 般 地 ,可 以 使 用 下 面 的 方法 完成 管理 /配置 映像 : 
EUT /{index}/_mapping 


其 中 ,PUT 代表 HTTP 方法 ,{index} 表 示 对 应 的 索引 文件 名 称 。 
针对 {index} ,可 以 使 用 下 面 的 语法 进行 扩充 : 


blank | * | _all | glab pattern | namel, name2，… 


代码 段 2.6 展示 了 管理 /配置 索引 文件 的 映像 的 方法 。 此 例 中 ,在 名 为 weibo 的 索引 文 
件 中 ,对 名 为 message 的 字段 进行 了 设置 ,这 里 定义 message 的 数据 类 型 为 text, 并 且 需 要 
在 Elasticsearch 中 存储 。 


FS 
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代码 段 2.6: 通过 映像 配置 索引 文件 weibo 的 字段 属性 
curl —H 'Content- TYPe: application/json' — XEUT "http://localhost:9200/weiboy/ 
_qpbc/_ mapping' -d'{ 


2.4.3 获取 映像 信息 
可 通过 GET 方法 获取 映像 中 的 信息 ,相关 命令 为 
GET /{index}/ mapping 
下 面 的 代码 给 出 了 从 具体 类 型 文件 中 获取 信息 的 方法 : 


curl - H 'Content- Type: applicaticn/json' ~ XGET "httbp://localhost:9200/weiboy/ 
_mapping/_doc' 


和 2.4.2 节 所 述 情况 类 似 ,可 在 {index) 中 写 入 索引 文件 名 称 ( 如 果 有 多 个 索引 文件 ,可 
以 使 用 逗号 隔 开 ,也 可 以 使 用 _all 参数 来 匹配 所 有 索引 )。 例 如 ,如 果 要 获取 所 有 索引 文件 
的 所 有 类 型 文件 的 映像 信息 ,可 使 用 下 面 的 方法 : 


curl —H 'Content- Type: application/json' — XEET ‘http://localhost:9200/ all/ 
mapping" 


curl -了 "Content- Type: application/json' ~ XGET ‘http://localhost:9200/_mapping' 


代码 段 2.7 演示 了 查看 索引 文件 名 为 weibo、 字 段 为 user 的 映像 配置 的 方法 。 


代码 段 2.7: 查看 指定 映像 配置 的 方法 
curl - H 'Content- Type: application/json' - XGET "htbp://localhost:9200/weiboy/ 
_mepping/_doc/field/user' 


上 述 语 句 的 返回 值 如 下 : 
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代码 段 2. 8 演示 了 如 何 进行 跨 索引 ( 即 多 个 索引 ?查询 映像 信息 的 方法 ,以 及 在 所 有 索 
引 中 针对 某 些 指定 字段 内 容 的 查询 方法 (注意 其 中 通配符 的 用 法 ) 。 


代码 段 2.8: 在 多 个 索引 或 多 个 类 型 中 查询 映像 信息 的 方法 

curl - H 'Content- Type: application/json' - XGET 'http://localhost: 9200/weibo, weibo2/_mapping/field/ 
timey 

curl -H ‘Content— Type: application/jsan' - XEET http://localhost:9200/ all/ 
_mapping/_doc/field/oontent, time,message' 

curl - H 'Content— Type: application/json"' - XGET ‘http://localhost:9200/ all/ 


_mepping/wei * /field/* .id' 


2.4.4 删除 映像 
映像 可 以 通过 DELETE 方法 删除 。 这 里 也 允许 使 用 通配符 和 _all 等 参数 。 注 意 ,在 下 
面 给 出 的 方法 中 ,使 用 的 HTTP 方法 是 DELETE 方法 。 


pe 
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DEIETE /{index} 
TEIETE /{index}/ mapping 


在 上 述 语句 后 面 的 {index} 参 数列 表 中 可 使 用 的 参数 如 下 (如 果 存在 多 个 名 称 , 用 逗号 
分 隔 开 即 可 ) : 


* | _all | glab pattern | namel, name2，… 


25 管理 秦 引 文件 


2.5.1 打开 关闭、 检测 .删除 索 引文 件 


一 个 关闭 的 索引 文件 将 禁止 用 户 向 其 写 和 数据 或 读 取 其 中 的 数据 ,而 一 个 打开 的 索引 
文件 可 以 允许 用 户 对 其 中 的 数据 文件 进行 相应 操作 。 使 用 /{index 名 称 }/_open 和 
/findex 名 称 }/_close 语句 可 以 打开 或 关闭 指定 的 索引 文件 ,具体 方法 见 代码 段 2. 9。 


代码 段 2.9: 打开 及 关闭 索引 文件 weibo 的 方法 
curl -H 'Content- Type: application/json' - XEOST "localhost:9200/weibo/_cpen' 
curl - H 'Content- Type: applicaticn/jscn' - XEOST 'localhost:9200/weibo/_close' 


通过 HEAD 方法 可 以 检测 一 个 索引 文件 是 否 存在 。 代 码 段 2. 10 检测 索引 文件 weibo 
是 否 存 在 (通过 返回 的 HTTP 状态 码 进行 检查 )。 如 果 返 回 的 状态 码 是 200, 则 表示 存在 相 
应 的 索引 文件 ;如 果 返 回 的 状态 码 是 404, 则 表示 文件 不 存在 。 该 命令 中 的 -XHEAD 在 新 版 
本 中 推荐 使 用 -I 或 -head 代替 。 


代码 段 2.10: 检测 索引 文件 weibo 的 状态 
curl - H 'Content- Type: application/json' - XHERD "http://localhost:9200/weibo' —v 


类 似 地 ,通过 DELETE 方法 可 以 删除 一 个 或 者 多 个 索引 文件 。 例 如 ,代码 段 2. 11 删除 
名 为 weibol 的 索引 文件 。 


代码 段 2.11: 删除 索引 文件 weibol 
curl -H 'Content- Type: application/json' — XLELETE ‘http://localhost:9200/weibol/' 


还 可 使 用 通配符 来 批量 删除 名 称 相似 的 索引 文件 。 例 如 ,代码 段 2. 12 删除 以 weibo 字 
符 串 开 头 的 一 组 索引 文件 。 同 样 ,也 可 使 用 _all 参数 删除 全 部 索引 文件 。 
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代码 段 2.12: 使 用 通配符 批量 删除 索引 文件 
curl - H 'Content- Type: application/json' - XDETETE "http://localhost:9200/ 
WEibox /' 


2.5.2 清空 索引 缓存 
通过 下 面 的 方法 ,可 以 清空 指定 的 索引 缓存 ,参见 代码 段 2. 13。 


代码 段 2.13: 清空 weibo 中 的 索引 缓存 
curl - H 'Content- Type: applicaticn/jscn' ~ XFOST 'http://localhost:9%00/weibo/_cache/clear' 


如 果 指 定 了 多 个 索引 文件 名 称 , 也 可 以 一 次 清空 多 个 索引 缓存 。 例 如 ,代码 段 2. 14 所 
示 的 方法 可 以 清空 两 个 索引 文件 weibol 、weibo2 中 的 缓存 。 


代码 段 2.14: 清空 多 个 索引 缓存 
curl - H 'Content- Type: application/json' ~ XFOST ‘http://localhost:9200/ 
Weibol, weibo2/_cache/clear' 


2.5.3 刷新 索引 文件 


通过 代码 段 2. 15 的 方法 ,可 以 刷新 一 个 或 多 个 索引 文件 的 状态 ,以 便 反 映 索 引文 件 的 
最 新 变化 。 


代码 段 2.15: 刷新 索引 文件 
curl -H 'Content- Type: application/json' - XPOST "http://localhost:9200/weibo/_refresh'" 


也 可 以 通过 指定 多 个 索引 名 称 一 次 刷新 多 个 索引 文件 (分 别 指定 索引 文件 名 ,如 代码 
段 2. 16 第 一 行 代码 所 示 ) 或 全 部 索引 (无 须 指出 索引 文件 名 ,如 代码 段 2. 16 第 二 行 代码 
所 示 ) 。 


代码 段 2.16: 一 次 刷新 多 个 索引 文件 或 全 部 索引 文件 

curl - H 'Content- Type: application/json' ~ XEOST "httbp://localhost:9200/ 
weibol, weibo2/_refresh"' 

Curl -了 'Content— Type: application/json' ~ XFOST "http://localhost:9200/ 
_refresh' 
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2.5.4 优化 索引 文件 


相对 于 Lucene 的 索引 ,Elasticsearch 的 索引 过 程 多 了 分 布 式 数据 的 扩展 , 它 主要 使 用 
translog 进行 各 节点 间 的 数据 平衡 。 例 如 ,代码 段 2. 17 可 以 优化 一 个 或 多 个 索引 文件 。 


代码 段 2.17: 优化 索引 文件 
curl -H 'Content- Type: applicaticn/json' - XEOST "http://localhost:9200/weibo/_doc/_cptimize' -ad {} 


类 似 地 ,也 可 以 指定 多 个 索引 文件 名 称 , 完 成 一 次 优化 多 个 索引 文件 或 全 部 索引 的 任 
务 ,其 方法 同 代码 段 2. 16 ,不 再 歼 述 。 


2.5.5 _ flush 操作 


flush 操作 可 将 暂 存 于 内 存 中 的 临时 数据 送 至 指定 索引 文件 并 清空 内 部 操作 日 志 等 , 方 
法 如 代码 段 2. 18 所 示 。 


代码 段 2.18: flush 操 作 
curl - H 'Content- Type: application/json' - XEOST "http://localhost:9200/weibo/_flush' 


类 伏地 ,也 可 以 指定 多 个 索引 文件 名 称 , 完 成 一 次 更 新 多 个 索引 或 全 部 索引 的 任务 ,其 
方法 同 代码 段 2. 16 ,不 再 袭 述 。 


26 设置 中 又 分 析 器 


全 文 检索 往往 需要 对 中 文 进行 分 词 。 有 关中 文 分 词 的 背景 知识 可 参阅 2.9 节 。Lucene 
提供 了 中 文 分 析 器 用 于 处 理 中 文 分 词 ,此 外 也 有 一 些 开 源 的 中 文 分 词 处 理 模块 可 以 方便 地 
集成 到 信息 检索 系统 中 。 如 果 需 要 为 当前 的 索引 文件 定义 一 个 新 的 中 文 分 析 器 ,需要 先 关 
闭 当前 索引 文件 ,然后 更 改 中 文 分 析 器 ,最 后 再 次 打开 这 个 索引 文件 。 这 里 以 IK 插件 为 
例 , 对 中 文 分 析 器 的 配置 和 使 用 进行 介绍 。 

首先 ,在 IK 的 GitHub 网 站 页 面 中 (网 址 : https://github. com/medcl/elasticsearch- 
analysis-ik) 下 载 源 代码 压缩 包 。 单 击 页 面 左 上 方 标 有 “branch: master” 字 样 的 下 拉 列 表 ， 
单 击 tags 标签 ,选择 与 当前 已 安装 的 Elasticsearch 相对 应 的 版 本 (可 以 在 页 面 下方 的 对 照 
表 中 查看 应 下 载 的 IK 分 析 器 版 本 ) ,页 面 随即 跳 转 至 指定 版 本 的 源 代码 页 面 。 此 时 单 击 右 
上 方 的 绿色 按钮 ,下 载 ZIP 压缩 包 。 
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1 
区 IK 的 源 代 码 可 以 使 用 Maven 编译 。 也 可 以 在 http://maven. aliyun. com 找 
到 IK 的 已 编译 程序 。 此 外 ,IK 插件 的 GitHub 页 面 中 也 给 出 了 直接 下 载 已 编译 程序 包 
(pre-build package) 的 资源 链接 。 


接着 ,使 用 终端 中 的 unzip 命令 将 下 载 的 压缩 包 解压 。 在 解压 后 的 文件 夹 中 ,执行 终端 
命令 mvn package 生成 IK 分 词 插件 的 ZIP 压缩 包 。 在 Elasticsearch 目录 下 的 plugins 文 
件 夹 中 创建 还 文件 夹 ,并 将 生成 的 ZIP 压缩 包 解 压 到 该 文件 夹 中 。 然 后 对 Elasticsearch 中 
的 索引 文件 weibo 进行 更 改 中 文 分 析 器 的 配置 ,如 代码 段 2. 19 所 示 。 


代码 段 2.19: 设置 索引 文件 的 中 文 分 析 器 
curl - H 'Content- Type: application/json' - XEOST 'localhost:9200/weibo/_close' // 关 闭 weibo 
Ql -H 'Content- WPe: aplicaticn/jscn' - XEUT "localhost:900/weibo/ settings' -d '{ // 设 置 weibo 
"analysis": { // 更 改 中 文 分 析 器 
"analyzer": { 
"oontent": { // 设 置 应 用 中 文 分 析 器 的 字段 
"type": "custaom", 
"tokenizer": "ik max word" /采用 还 中 文 分 析 器 
} 
} 
} 
站 
curl - H 'Content- Type: applicaticn/json' - XFOST '1ocalhost:9200/weibo/_cpen' // 重 新 打开 weibo 


代码 段 2. 20 演示 了 通过 特定 的 中 文 分 析 器 对 指定 文字 进行 分 词 并 观察 分 词 结果 的 
方法 。 


代码 段 2.20: 使 用 下 中 文 分 析 器 对 指定 文字 进行 分 词 
curl - H ‘Content— Type: application/json' — XGET "http://localhost:9200/weibo/ 
_analyze" -dr{ 
"text":" 公 安 部 :各 地 校车 将 享 最 高 路 权 " "tokenizer": "ik_smart" 
让 


上 述 代 码 执行 后 ,让 _smart 分 析 器 将 句子 以 最 粗 粒 度 拆 分 ,该 示例 的 返回 值 如 下 : 


A 
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{ 
"tokens": [ 
{ 
"token" : "公安 部 "， # 第 1 个 词 


"start offset" : 0, 
"end offset" : 3, 
"bype" : "CN WORD”, 
"position" : 0 

小 


"token" : 咯 地 " # 第 2 个 词 
"start offset" 
"end offset" : 6, 
"type”" : "CN WORD 
"Position : 1 

小 


"token" : "校车 " # 第 3 个 词 
"start offset" : 6, 
"end offset" : 8, 


"token" : 啦 "， # 第 4 个 词 
"start offset" : 8, 
"end offset" : 9, 
"type" : "CN_CHAR", 
"position" : 3 
b, 


"token" : 哼 " # 第 5 个 词 
"start offset" : 9, 
"end offset" : 10, 
"type" : "CN_CHAR", 
"position" : 4 
小 


"token" : 最 高 "， # 第 6 个 词 
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"start offset" : 10, 
"end offset" : 12, 
"typen : "CN WORD 
"position" : 5 


"token" : 咯 ", # 第 7 个 词 
"start offset" : 12, 

"end offset" : 13, 

"type” : "CN CHAR 

"position" : 6 


"token" : 吴 " # 第 8 个 词 
"start offset" : 13, 

"end offset" : 14, 

"type" : "CN_ CHAR", 

"position" : 7 


27 对 文 档 的 具 他 棵 作 
Elasticsearch 提供 了 多 种 途径 对 文档 进行 获取 信息 、 增 删改 ,更 新 等 相关 操作 。 


2.7.1 获取 指定 文档 的 信息 


可 以 通过 GET 方法 获取 指定 文档 的 详细 信息 。 代 码 段 2. 21 演示 了 查看 索引 文件 
myweibo3 下 id 号 为 3 的 文档 记录 信息 的 方法 ,注意 这 里 的 HTTP 操作 方式 是 GET。 


代码 段 2.21: 获取 指定 文档 的 信息 
curl -H 'Content- Type:application/json' — XCET ‘http://localhost:9200/ 
myweibo3/_doc/3" 


示例 返回 结果 如 下 ,其 中 ,_source 段 中 的 内 容 就 是 指定 文档 的 详细 信息 。 
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"_ingex" : "myweibo3", // 索 引 名 
”type" : "doc /类 型 名 
人 /ia 号 

"version" : 1, // 版 本 号 


Muser": "TiMing", // 详 细 信 息 
"post_date": "2018- 01- 01T14:00:00", 
"mymessage": "Hello Tam" 


} 


除了 上 面 的 方法 外 ,还 可 设置 想 要 显示 或 屏蔽 的 结果 。 代 码 段 2. 22 演示 了 关闭 
_source 过 滤器 后 的 效果 (语句 中 的 问号 表示 其 后 是 参数 ,问号 后 的 pretty 表示 返回 的 结果 
以 缩 进 格式 显示 以 方便 阅读 ) 。 执 行 该 语句 后 ,在 输出 的 结果 中 将 不 再 带 有 详细 信息 。 


代码 段 2.22: _source 过 滤器 
curl - H 'Content- Type:application/json' - XCET ‘http://localhost:9200/ 
myweibo3/_doc/3? pretty& souroe= false' 


代码 段 2. 23 演示 了 如 何 只 显示 特定 字段 的 方法 (此 例 只 显示 _source 为 user 的 内 容 ) 。 


代码 段 2.23: 显示 特定 字段 的 方法 
curl - H 'Content- TYPe:applicaticn/json' ~ XGET "http://localhost:9200/yweibo3/_dpc/3? _source= user' 


上 述 语句 的 返回 结果 将 只 显示 有 user 字段 ,如 下 所 示 : 


"index" : "myweibo3", 
本 上 type" Se de 
wid ens 

" version" : 1, 
"found" : true, 
"souroe": { 


"user": "LiMing" 
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2.7.2 删除 指定 文档 的 信息 


可 以 使 用 DELETE 方法 删除 指定 文档 的 信息 。 例 如 ,执行 代码 段 2. 24, 会 删除 
myweibo3 索引 文件 中 id 号 为 3 的 文档 的 信息 。 


代码 段 2.24: 删除 指定 文档 的 信息 
curl - H 'Content- TYpe:application/jscn' - XDETETE ‘http://localhost:9200/ 
myweibo3/_doc/3' 


上 述 语句 的 返回 结果 如 下 ,表明 删除 成 功 。 


"type": "docw 

wid": "3", 

" version": 2, 

"result": "deleted", 

"shards": { 
"total": 2, 
"successful": 2, 
"failed": 0 

} 

} 


2.7.3 更 新 指定 文档 的 信息 


如 果 需 要 对 索引 文件 中 的 类 型 或 其 中 的 文档 进行 更 新 ,需要 用 Elasticsearch 提供 的 
update API 来 实现 。 它 的 处 理 过 程 是 : 先 取出 文档 ,运行 指定 脚本 ,然后 更 新 文档 。 例 如 ， 
代码 段 2. 25 是 在 索引 文件 weibo 中 增加 id 为 3 的 文档 的 信息 (例子 中 给 出 了 4 个 字段 , 即 
user、post_date、message,like, 这 里 的 like 的 含义 是 针对 此 条 微 博 的 点 赞 数 量 )。 


代码 段 2.25: 直接 向 索引 文件 中 增加 指定 记号 的 文档 的 信息 
curl -H 'Content- TYPe:application/json' - XEUT http://localhost:9200/weibo/ 
_doc/3-d'{ ”// 直 接 指定 记号 ,这 里 的 HPTP 方 法 是 FIT 
"Post date": "2018- 01- 10T14:00:00", 
"message": "Hello Tim 
"ike": 3 
}! 
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接 下 来 ,使 


script 定制 函数 形式 的 命令 对 文档 信息 进行 更 新 。 可 以 通过 使 用 update 
API 将 上 述 文 档 的 like 数值 增 大 ,实现 方法 如 代码 段 2. 26 所 示 。 注 意 , 这 里 的 ctx. _source 


表示 本 文档 的 内 容 , ctx. _source. like 表示 本 文档 中 某 个 具体 的 字段 (这 里 指 like 字段 )， 
params 是 拟 使 用 的 新 参数 值 。 


代码 段 2.26: 通过 update AFI 更 新 文档 信息 


curl -H 'Content— Type:application/json' — XFOST http://localhost:9200/weibo/ 
_adbc/3/ update -ad '{ 


"acript":f 
inline":"ctx. souroe.liket =params.count", 
"params":{ 


"count":4 


执行 完 上 述 语句 后 的 索引 数据 如 图 2. 9 所 示 


。 注 意 ,字段 中 的 like 值 已 经 由 原来 的 3 
变 为 7。 


score” 
"” source":{ 


user "Limin 
"post_date" "2 
“message”: "H 
Tiker 
} 
} 


图 2.9 更 新 like 字段 后 的 索引 数据 


Ep 上 面 的 代码 中 ,ctx. _source 表示 文档 内 容 ,ctx. _source. like 表示 该 文档 的 
like 字段 ,params 中 的 count 用 于 为 变量 赋值 。 图 2.9 中 的 结果 可 以 通过 curl -H 


‘Content-Type: application/json ' -XGET http://localhost: 9200/weibo/_ doc/3 命令 
得 到 。 


上 述 的 update API 是 针对 数值 型 数据 的 增删 改 操作 。 类 似 地 ,也 可 以 完成 对 字符 型 数 
据 的 更 新 。 代 码 段 2.27 录入 了 id 号 为 5. 索引 文件 为 weibo 的 部 分 微 博 数据 字段 ( 含 user、 
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post_date message tags 等 ) 。 


代码 段 2.27: 直接 录入 指定 过 号 的 文档 的 信息 
curl -H 'Content- Type: application/json' - XFOST http://localhost:9200/weibo/ 
_doc/5 -ad '{ /注意 这 里 使 用 的 ErTP 方 法 是 FosT 

'2016- 11- 02T14:00:00", 


"script.engine.groovy.inline.updaten: "true", 
"script.stored": "true", 


ntags": [ 
nHello" 
] 

} 


代码 段 2. 28 的 作用 是 修改 上 述 语句 执行 结果 中 的 tag 字段 信息 并 增加 新 的 内 容 ( 即 在 
tag 字段 中 增加 新 的 内 容 )。 修 改 后 的 文档 信息 如 图 2. 10 所 示 ( 可 通过 curl -H (Content-Type: 


application/json' -XGET http://localhost:9200/weibo/_doc/5 命令 得 到 运行 结果 ) 。 


nline.update' 


图 2.10 更 新 tag 字段 后 的 索引 数据 


代码 段 2.28: 通过 update RET 更 新 文档 信息 
curl -H 'Content- Type: application/json' - XEOST http://localhost:9200/weibo/ 
_doc/5/_update -d '{ // 注 意 这 里 的 HTTP 方法 是 FoST 
"script": { 
"inline": "ctx. souroe.tags.add (params.tag)", 
"params": { 
"tag": "Today is a nice day!" 
} 


po 
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由 于 Elasticsearch 处 理 的 文档 多 是 非 结构 化 的 信息 ,因此 它 可 以 与 关系 型 数据 库 不 
同 , 文 档 中 各 记录 的 字段 有 可 能 不 一 样 。 利 用 update API, 不 仅 可 以 用 上 述 方法 更 新 数据 ， 
也 可 以 修改 文档 结构 (如 只 在 某 一 id 号 的 文档 的 记录 上 增加 新 字段 )。 代 码 段 2. 29 在 指定 
文档 中 增加 新 字段 ,这 个 新 字段 的 名 字 是 name_of_new_field, 其 值 是 new_field。 注 意 ,这 
里 对 引号 需 作 转 义 处 理 。 


代码 段 2.29: 通过 update RET 修 改 文档 结构 并 增加 新 的 字段 
curl - H ‘Content— Type: application/json' - XEOST http://localhost:9200/weibo/ 
_adpc/5/ update -d '{ 
"script": "ctx。source-name of new field= \"new field\™ 
}' 


代码 段 2. 30 完成 的 任务 如 下 : 在 使 用 update API 时 ,如 果 指 定 id 号 (此 例 中 是 7) 的 记 
录 不 存在 , 则 通过 参数 中 的 upsert 创建 这 个 文档 ,并 且 加 入 新 的 字段 (其 名 为 counter, 其 值 
为 1); 如 果 有 该 记录 ,就 把 指定 的 字段 like 的 值 增加 4( 在 代码 中 的 params 中 给 出 要 增加 的 
值 ) 。 


代码 段 2.30: 通过 update RET 修 改 文档 结构 
curl -H 'Content- Type: applicaticn/jscn' - XEOST http://localhost:9200/weibo/ 
_doc/T/_update -d '{ 
mecript™s { 

"inline": "ctx. souroe.liket+ =params.oount", 

"ang":"painless", 

"params": { 

"count": 4 


2.7.4 基于 POST 方式 批量 获取 文档 信息 


Elasticsearch 支持 一 次 操作 多 条 记录 。 例 如 ,代码 段 2. 31 可 返回 id 号 为 5 和 7 的 文档 
信息 ,注意 语句 中 的 _mget 参数 的 使 用 。 
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代码 段 2.31: 基于 FOST 方 式 批量 获取 文档 信息 
curl -了 'Content- Type: application/json'~ XFOST http://localhost:9200/weibo/ 
_mget -d'{ 
"aocsa": [ 
i 
"_index": "weibo", 
i 


hb 


“post_date™: "2018-01-15T14:00:00", 
“message”: "Hello Lily”, 
"script.engine.groovy.inline.update”™: “true”, 
“script.inline”: “irue”, 

"script.stored"”: “true”™, 

v “tags": [ 

“Hello" 


“Today is anice day!” 


“name_of_new_field": "new _field" 


图 2.11 基于 POST 方式 批量 获取 文档 信息 
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也 可 使 用 _source 过 滤器 。 代 码 段 2. 32 演示 了 相应 的 方法 。 


代码 段 2.32: 使 用 _scurce 过 滤器 获取 文档 信息 
curl - H 'Content- Type: application/json' - XFOST curl "localhost:9200/ mget? 
pretty' -d '{ 


针对 上 述 语句 的 返回 结果 如 下 : 


{ 
"dpcs" : [ 
{ 

"index" : "weibo", 

" type" : " doc", 

wid" : "3", 

”Version" : 2, 

"found" : true, 

"souroe" : { 
"user" : "Liming", 
"post_daten : "2018- 01- 10T14:00:00", 
"message" : "Hello Tam", 
ew 
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召 倒 


前 面 给 出 了 如 何 建立 索引 文件 、 通 过 映像 配置 索引 文件 和 管理 索引 文件 、 为 文档 设置 中 
文 分 析 器 以 及 对 文档 的 其 他 相关 操作 方法 。 下 面 给 出 一 个 在 Elasticsearch 中 建立 索引 文 
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档 的 实例 , 即 对 获取 的 非 结构 化 的 学 术 论 文 数据 建立 基于 Elasticsearch 的 索引 文件 的 方 
法 。 实 例 中 的 数据 是 来 自 网 络 的 图 书 数据 ,包含 图 书 的 书 名 、 作 者 .内容 简介 和 关键 字 等 信 
息 , 并 对 它们 建立 索引 。 下 面 介绍 如 何 建立 基于 Elasticsearch 的 索引 文件 。 

首先 ,建立 一 个 名 为 information 的 索引 文件 ,该 索引 文件 中 的 性 能 指标 (如 number of 
shards 和 number of replicas) 均 采用 默认 值 。 

其 次 ,为 information 索引 文件 创建 映像 。 在 创建 传统 的 关系 型 数据 库 中 的 数据 表 时 ， 
一 般 要 逐个 创建 数据 表 中 的 每 个 字段 并 指定 其 数据 类 型 。 在 Elasticsearch 中 ,虽然 它 会 
拟 创 建 的 索引 文件 自动 创建 映像 ,但 在 实际 使 用 时 ,通常 要 根据 实际 情况 手动 创建 映像 ,这 
样 可 方便 进行 个 性 化 设置 (如 规定 数据 类 型 .在 某 字 段 上 执行 各 种 分 词 操作 等 )。 图 2. 12 是 
借助 head 工具 ,给 出 针对 本 实例 的 手动 配置 索引 映像 的 结果 。 从 中 可 见 , 在 information 索 
引 中 包括 4 个 字段 ,其 中 abstract 和 keywords 采用 让 _max_word 分 析 器 。 


"mappings": { 
- oc" { 
"properties": 
"title" 
"type": "text", 
"index": true, 
"analyzer": "ik max word" 


}, 

"abstract": { 
"type": "text", 
"index": true, 
"analyzer": "ik max word" 


“author": { 


"type": "text", 
"index": false 


}, 

"keywords": { 
"type": "text", 
"index": true, 
"analyzer": "ik max word" 


2.12 创建 映像 
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1 
四 9 在 Elasticsearch 5.x 及 后 续 版 本 中 ,应 使 用 ik_smart 或 谍 _ max_word 作为 IK 
分 词 工 具 的 名 称 。 其 中 ,ik_smart 会 做 最 粗 粒 度 的 拆 分 ,例如 会 将 “中 华人 民 共 和 国 国 
歌 ” 拆 分 为 “中 华人 民 共 和 国 /国歌 ”; 而 ik_max_word 会 将 文本 做 最 细 粒 度 的 拆 分 ,例如 
会 将 “中 华人 民 共 和 国 国歌 ” 拆 分 为 “中 华人 民 共 和 国 /中 华人 民 / 中 华 / 华 人 /人 民 共 和 
国 /人 民 / 人 / 民 / 共 和 国 /共和 /和 / 国 国 /国歌 ”。 


创建 映像 后 ,可 查看 索引 文件 中 任意 字段 的 映像 配置 信息 。 图 2. 13 显示 的 是 索引 文件 
information 中 字段 为 author 的 映像 配置 信息 。 


http://ocalhost:9200/ 


图 2.13 查看 指定 字段 的 映像 配置 信息 


第 三 ,录入 图 书 数据 。 可 使 用 两 种 方法 : 一 种 是 在 head 中 手动 录入 数据 (如 图 2. 14 所 
示 ); 男 一 种 是 通过 Java 客户 端 方 式 自动 实现 。 由 于 此 处 尚未 介绍 Java 客户 端的 相关 方 
法 ,这 里 给 出 前 一 种 方法 。 图 2. 15 为 添加 好 的 相关 数据 。 


”index": "information", 


"_vel :1 


"result": "created", 


| 了 ”shards": { 
"Title": "大 数据 搜索 与 日 志 挖掘 及 可 视 化 方案 ", ta 
"author”: "高 志 ", ee Be 


"abstract": "本 书 从 分 布 式 大 数据 搜索 、 日 志 挖掘 与 可 视 化 


的 Elasticsearch 对 大 数据 进行 分 布 式 计算 与 全 文 检索 ; 如 何 
利用 Logstash 对 日 志文 件 进行 智能 分 析 与 处 理 ; 如 何 利用 

| Web 接 口 Kibana 对 日 志 进行 高 效 的 搜索 、 可 视 化 、 分 析 等 ， 
是 本 书 的 论述 重点 。"， 

"keywords: "大 数据 搜索 日 志 可 视 化 " 

上 


2.14 录入 信息 
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5 TensorFlow: 实战 Google 深 度 学 习 框架 (第 2 版 ) 郑 泽 宇 杂 博 文 顾 思 宇 TensorFlow 是 谷歌 2015 年 
2 1 机 村 学 习 周志 华 机 器 学 习 是 计算 机 科学 与 
4 数学 之 美 《第 二 版 ) 吴军 《数字 之 美 》 上 市 | 

1 1 深度 学 习 lan Goodiellow，Yoshua Bengio，Aaron Courvile 《深度 学 习 》 由 全 球 知名 | 
3 1 大 数据 搜索 与 挖 气 及 可 视 化 管理 方案 (第 3 版 ) 。 高 遍 本 书 着 重 介绍 关于 Elastic 


图 2.15 存储 到 Elasticsearch 中 的 信息 


当 把 相关 信息 存储 到 文档 中 以 后 ,可 以 对 文档 进行 相关 操作 (如 获取 指定 的 文档 信息 、 
获取 文档 信息 中 指定 的 字段 .删除 部 分 信息 、 数 据 更 新 .批量 获取 文档 等 )。 图 2. 16 为 获取 
id 为 3 的 文档 信息 (通过 HTTP 的 GET 方式 实现 )。 图 2. 17 为 获取 id 为 1 的 文档 的 
_source 下 的 title( 通 过 HTTP 的 GET 方式 实现 )。 图 2. 18 为 删除 id 为 2 的 文档 信息 ( 通 
过 HTTP 的 DELETE 方式 实现 )。 图 2. 19 为 基于 POST 方式 批量 获取 文档 信息 (通过 
HTTP 的 POST 方式 实现 ) 。 


: yue, 
“_source”: { 
"le "大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 (第 3 版 )"， 
”author "高 天 
"abstract": "本 书 着 重 介绍 关于 Elastic Stack 的 基本 知识 ， 带 领 读者 深入 
读者 学 氛 相 关 的 大 数据 搜索 、 日 志 分析 和 可 视 化 技术 。 本 书 还 详细 介绍 
je “大 数据 搜索 日 志 可 视 化- 
) 


图 2.16 获取 指定 id 的 文档 信息 


information/_doc/1?_source=title 
0 


图 2.18 删除 指定 id 的 文档 信息 
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http-Wiocalhost9200/ 
information/_mget IPOST 
docs": [ v "_source™.{ 
下 本 二 “tite” 深度 学 习 "， 
DN A EAT “author’: "lan Goodtellow, Yoshua Bengio, Aaron Courvile”, 
i "abstracf* 《深度 学 习 》 由 全 球 知名 的 三 位 专家 lan Goodfellow、 
{ 1 部 分 介绍 基本 的 数学 工具 和 机 器 学 习 的 概念 ， 它 们 是 深度 学 习 的 
"_index": "information", 向 和 想法 。 它 们 被 公认 为 是 深度 学 习 未 来 的 研究 重点 。"， 
"id": "3" "keywords": “深度 学 习 自然 语言 处 理 计算 机 视觉 推荐 系统 ” 


"index: "information", 
type”: ”doc”, 

Tid 
version": 1, 
Tound": tue, 
TY ”source' 


Ri 
"le” "大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 (第 3 版 )“， 
“author "高 遍 … 

"abstracf: “本 书 着 重 介绍 关于 Elastic Stack 的 基本 知识 ， 带 领 读 
战 ， 引 导读 者 学 气相 关 的 大 数据 楼 索 、 日 志 分 析 和 可 视 化 技术 。 
"keywords": “大 数据 搜索 日 志 可 视 化 


图 2.19 基于 POST 方式 批量 获取 文档 信息 


29 扩展 知识 与 阅读 


实现 人 机 间 自 然 语言 的 交互 ,意味 着 要 使 计算 机 既 能 理解 自然 语言 的 意义 ,也 能 以 自然 
语言 文本 来 表达 给 定 的 意图 .思想 等 。 前 者 一 般 称 为 自然 语言 理解 或 自然 语言 处 理 
(Natural Language Processing,NLP) ,后 者 是 自然 语言 生成 。NLP 包括 词法 分 析 ( 涉 及 自 
动 分 词 ,分词 歧义 消解 .未 登录 词 识 别 与 获取 等 ) 、 语 法 分 析 ( 涉 及 自动 标注 、 语 法 表示 ,语法 
分 析 等 )、 语 义 分 析 ( 涉 及 语义 表示 ,语义 分 析 、 语 义 消 歧 等 ), 其 应 用 包括 文本 分 类 ,信息 抽 
取 、 自 动 文摘 统计 对 齐 与 机 器 翻译 、 聚 类 等 。 在 信息 检索 中 ,自然 语言 包括 关键 词 、 自 由 词 
和 出 现在 文献 题名 .摘要 正文 或 参考 文献 中 的 具有 一 定 实际 意义 的 词语 。 研 究 自然 语言 处 
理 , 是 希望 计算 机 能 够 在 某 种 程度 上 理解 并 处 理 人 类 的 自然 语言 。 目 前 各 种 自然 语言 处 理 
技术 都 相继 出 现 并 已 应 用 到 某 些 领域 ( 张 华 平 ,2014) 。 

国内 外 关于 自然 语言 处 理 的 研究 曾 长 期 专注 于 语法 层次 。20 世纪 末 , 人 们 认识 到 , 单 
纯 从 语法 层次 上 进行 研究 是 不 能 解决 实际 问题 的 。 目 前 ,国内 外 在 信息 检索 领域 内 对 自然 
语言 理解 的 研究 已 有 很 多 成 果 。 研 究 方法 有 基于 语言 学 规则 分 析 的 方法 和 基于 统计 的 方法 
两 种 (高 凯 ,2014) 。 基 于 规则 分 析 的 方法 是 建立 形式 化 的 知识 系统 来 阐述 语言 知识 ,规则 多 
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是 通过 内 省 的 方式 得 到 的 ,其 本 质 是 一 种 确定 性 的 演绎 推理 。 虽 然 这 种 方法 可 以 实现 对 单 
个 句子 的 分 析 , 但 是 难以 覆盖 各 种 复杂 的 语言 现象 。 同 时 ,如 果 要 添加 新 的 规则 ,还 需要 注 
意 到 与 已 有 规则 间 的 相 容 性 。 正 因为 基于 规则 的 方法 的 诸多 缺陷 的 存在 ,再 加 之 后 来 大 量 
语料库 的 涌现 ,使 得 基于 统计 的 方法 逐渐 兴起 ,其 最 大 的 优点 是 可 以 使 语言 现象 数量 化 ,再 
加 上 其 他 的 一 些 优势 ,使 这 种 方法 的 应 用 范围 非常 广泛 。 但 是 该 方法 可 能 会 拖 盖 一 些小 概 
率 事 件 的 发 生 ,所 以 该 方法 也 有 局 限 性 。 总 之 ,两 种 方法 各 有 优 缺 点 。 将 二 者 结合 起 来 , 优 
势 互补 ,并 借 此 实现 面向 大 规模 真实 文本 的 信息 处 理 , 是 可 行 的 。 

在 进行 自然 语言 处 理 时 ,分 词 一 一 特别 是 对 像 中 文 这 样 的 亚洲 语言 来 说 一 一 是 必要 的 。 
相对 于 以 空格 自然 分 开 的 英文 来 说 ,中 文 分 词 处 理 要 复杂 得 多 ,因为 在 英文 中 广泛 存在 的 空 
格 就 是 最 简单 的 分 词 标志 (两 个 空格 之 间 的 字符 串 即 被 定义 为 一 个 token) ,但 是 对 中 文 而 
言 , 问 题 就 没有 这 么 简单 了 。 例 如 中 文中 广泛 存在 着 的 切 分 歧义 等 问题 ,在 西 文中 就 基本 没 
有 。 中 文 的 切 分 歧义 包括 交叉 歧义 (如 “乒乓 球拍 卖 完了 ”等 ) 组合 歧义 (需要 根据 上 下 文 甚 
至 整个 句子 来 判断 ) 、 真 歧义 (由 人 来 判断 也 不 知道 应 该 怎样 切 分 合适 ) 等 。 又 如 ,中 文 信息 
处 理 中 对 未 登录 词 的 处 理 也 是 一 个 难点 。 由 于 全 文 检索 需要 对 没有 分 割 标 记 的 文本 进行 分 
析 和 处 理 , 因 此 基本 的 分 词 处 理 是 必要 的 ,特别 是 在 对 文本 数据 建立 倒 排 索引 时 。 

倒 排 索引 是 一 种 数据 结构 ,常见 的 搜索 引擎 系统 多 采用 词 作为 检索 项 ,可 检索 某 个 词 ， 
找到 这 个 词 出 现 的 所 有 文档 及 出 现 位 置 。 简 单 地 说 , 倒 排 索 引 类 似 一 个 字典 ,该 字典 中 的 每 
一 个 条 目 都 指向 一 个 列表 ,列表 中 的 每 一 项 指向 一 个 此 条 目 在 某 个 文档 中 出 现 的 位 置 。 这 
个 条 目的 值 应 该 是 词 ,而 不 是 单独 的 字 。 例 如 ,要 查询 出 现 “ 计 算 机 ”3 个 字 的 文档 ,当然 不 
希望 查询 的 结果 中 出 现 “ 计 ”或 “ 算 " 或 “机 ”这 3 个 单个 的 字 , 因 为 “计算 机 ?是 一 个 具有 单独 
意思 的 词 ,所 以 分 词 的 准确 度 直接 影响 搜索 引擎 的 可 用 性 。 一 般 认为 ,对 文档 的 分 词 处 理 是 
对 其 进行 分 类 等 处 理 的 前 期 步骤 。 


210 本 章 外 结 


本 章 主要 介绍 了 Elasticsearch 中 和 索引 相关 的 知识 ,内 容 包 括 基于 RESTful 的 接口 进 
行文 档 索 引 的 方法 ,内容 涉 及 索引 建立 文档 操作 等 。Elasticsearch 的 映像 类 似 于 静态 语言 
中 的 数据 类 型 。 映 像 不 仅 告诉 Elasticsearch 一 个 字段 中 存储 的 是 什么 类 型 的 值 , 还 告诉 
Elasticsearch 如 何 索 引 数据 以 及 数据 以 何 种 形式 被 搜索 到 。 


第 3 齐 as 


信息 检索 与 聚合 


Elasticsearch uses Lucene under the covers to provide the most powerful full 
text search capabilities available in any open source product，Search comes 
with multi-language support， a powerful query language， support for 
geolocation, context aware did-you-mean suggestions， autocomplete and 
search snippets. Elasticsearch provides a full Query DSL based on JSON to 
define queries. Query clauses behave differently depending on whether they are 
used in query context or filter context. The aggregations framework helps 
provide aggregated data based on a search query. It is based on simple 
building blocks called aggregations, that can be composed in order to build 
complex summaries of the data. An aggregation can be seen as a unit-of-work 
that builds analytic information over a set of documents. 

http://www. elastic. co 


在 Elasticsearch 中 的 基于 RESTful 接口 方式 中 ,完成 信息 检索 功能 的 关键 词 是 
_search, 通 过 POST 的 方式 发 送 到 Elasticsearch ,其 后 再 跟 *?q 王 查询 词 等 ,其 形式 化 表示 
方式 是 


http://{ip_address}:{port}/{index}/{type}/_3earch?q= 查 询 词 


例如 ,可 以 以 curl -XGET 'http://localhost:9200/_search?q 二 hello 十 world' 的 方式 完 
成 简单 检索 。 但 是 ,Elasticsearch 的 信息 检索 功能 很 强大 ,其 功能 远 远 不 止 于 此 。 在 进行 检 
索 时 ,可 简单 地 使 用 基于 Lucene 的 通用 检索 语法 ,也 可 以 使 用 更 加 灵活 的 基于 JSON 格式 
的 Query DSL(Domain Special Language, 领 域 专用 语言 ) 来 构造 各 种 检索 请 求 , 同 时 可 以 使 
用 Aggregations 来 实现 聚合 。 在 一 般 的 检索 表达 式 中 ,有 时 也 可 同时 包含 查询 条 件 和 过 滤 
器 ,可 以 使 用 复合 查询 ,可 以 改变 查询 结果 的 排序 ,也 可 以 在 Elasticsearch 中 使 用 脚本 。 在 
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处 理 字段 .类 型 和 查询 时 可 以 指定 分 析 器 。 和 Lucene 类 似 , Elasticsearch 索引 和 检索 时 使 
用 的 分 析 器 ( 带 有 零 个 或 多 个 过 滤器 的 分 词 器 ,如 中 文 分 词 工具 ) 应 该 是 一 样 的 ,否则 可 能 导 
致 检索 失败 。 


31 己 验 数据 集 模 太 
首先 介绍 在 示例 中 可 能 用 到 的 3 个 主要 数据 文件 的 结构 ; 


(1) 索引 文件 baidu 下 的 类 型 文件 baike: 利用 仆 虫 采集 到 的 百度 百科 词 条 信息 ,其 数 
据 结构 如 下 : 


_index: baidu // 针 对 百度 百科 词 条 数据 的 索引 文件 名 称 
_type: baike // 针 对 百度 百科 词 条 数据 的 类 型 文件 名 称 
_iq: XXX ia 号 
_version: X /| 版 本 号 
_score: X // 排 序 分 值 
_souroe: { /数据 字段 描述 
title: X X X // 词 条 标题 
url: X X X /OURL, 如 httbp://baike.baidua.comy/view/6505879.htm 
content: XXX // 词 条 内 容 
lastMpdifyTime: XX X ”// 最 近 更 新 时 间 
taglist: XXX // 内 容 分 类 ,如 "历史 人 物 " 等 
} 


(2) 索引 文件 itrhome 下 的 类 型 文件 posts: 利用 扑 虫 采集 到 的 程序 员 论 坛 主题 帖 信 
息 ,其 结构 如 下 : 


_index: it- hame // 针 对 程序 员 论 坛 主题 帖 数据 的 索引 文件 名 称 
_type: posts // 针 对 程序 员 论坛 主题 帖 数据 的 类 型 文件 名 称 
了 1/id 号 
_versicon: X // 版 本 号 
_score: X // 排 序 分 值 
_souroe: { /数据 字段 描述 
Publishmime: XX X // 帖 子 发 表 时 间 
category: XXX // 主 题 类 别 
title: XXXx /帖子 主题 
user: XXX // 帖 子 发 布 者 昵称 
url: Xxx //URL, 如 http://baike.baidu.com/view/6505879.htm 
content: X X X // 帖 子 内 容 
} 
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(3) 索引 文件 whale 下 的 类 型 文件 log: 为 日 志 信 息 , 其 结构 如 下 : 


_index: whale // 康 引文 件 名 称 

_type: log // 类 型 文件 名 称 

id: XXX //id 号 

_version: X // 版 本 号 

_score: X /人 排序 分 值 

_source: { /人 娄 据 字段 描述 
custam ip: XXX // 客 户 端 下 地 址 
timestamp: XX xX // 时 间 截 
http method: X X X //HTTP 方 法 ,如 GET、FOST 等 
uri: X X X // 请 求 RI 标识 
status code: XXX // 网 络 状 态 码 
os: XXX /客户 端 使 用 的 操作 系统 ,如 Wndows 10 
log size: XXX // 当 次 日 志 长 度 

} 
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如 果 需 要 构造 一 个 简单 的 查询 语句 ( 含 对 结果 排序 ,控制 返回 数据 集 大 小 、 指 定 返 回 字 
段 等 ) ,可 以 使 用 Elasticsearch 提供 的 基本 检索 功能 。 


3.2.1 检索 方式 


Elasticsearch 的 检索 可 以 通过 在 浏览 器 地 址 栏 中 输入 URL、 使 用 终端 curl 命令 、 在 可 
视 化 工具 head 的 复合 查询 中 输入 查询 语句 等 方式 进行 (可 任 选 一 种 方式 进行 查询 ) 。 

在 Elasticsearch 启动 的 前 提 下 ,可 以 在 浏览 器 中 直接 输入 URL( 如 果 同 时 提供 
&.pretty 二 true 子 句 , 则 输出 JSON 格式 的 结果 是 有 缩 进 的 ) ,格式 如 下 : 

http://localhost:9200/{findexj/ftype}/_searchzoF {field}: {keyword}gpretty= true 

上 述 方法 是 可 以 在 指定 的 索引 文件 index 下 的 类 型 文件 type 的 字段 field 中 查找 包含 
keyword 字符 串 的 结果 集 。 可 以 为 查询 指定 索引 文件 名 和 类 型 文件 名 (但 也 不 是 必需 的 ) 。 
如 果 只 给 出 索引 文件 名 而 没有 指定 类 型 文件 名 , 则 检索 该 索引 文件 下 的 所 有 类 型 文件 。 也 
可 以 指定 多 个 索引 文件 ,查询 其 中 的 所 有 或 特定 的 类 型 文件 。 下 面 列 出 几 种 不 同 的 情况 ， 

(1) 查询 指定 索引 文件 和 指定 类 型 文件 下 的 信息 (指定 index 和 type) 的 示例 如 下 : 


curl ~ XGET "localhost:9200/it- home/posts/_searchsoF category:javagpretty= true" 


第 3 章 信息 检索 与 聚合 45 ， 


(2) 查询 指定 索引 文件 下 所 有 类 型 文件 中 的 信息 (指定 index, 不 指定 type) 的 示例 
如 下 : 


curl - XCET 'localhost:9200/it- home/_search?d- category:javagpretty= true' 
(3) 查询 所 有 索引 文件 中 的 信息 (不 指定 index 和 type) 的 示例 如 下 : 
curl ~ XGET 'localhost:9200/_search?q content:javasprett- true' 


(4) 查询 多 个 索引 文件 下 所 有 类 型 文件 中 的 信息 (指定 多 个 index, 不 指定 type) 的 示例 
如 下 : 


Curl - XCET 'localhost:9200/baidu, it- home/_search?qF oontent:javagpretty= true' 


(5) 查询 多 个 索引 文件 下 多 个 类 型 文件 中 的 信息 (指定 多 个 index 和 多 个 type) 的 示例 
如 下 : 


curl - XGET 'localhost:9200/baidu, it- home/baike,Posts/_search?oF oontent:javagpretty= true' 


在 上 面 第 (5) 点 中 , 虽 可 查询 出 相关 数据 ,但 由 于 Elasticsearch 6. 0 以 上 版 本 
已 不 支持 在 索引 文件 中 存放 多 个 类 型 文件 ,因此 这 里 的 查询 多 类 型 信息 ,是 指 每 个 索引 
文件 下 的 单个 类 型 名 。 例 如 索引 文件 baidu 下 只 有 类 型 文件 baike, 索 引文 件 it-home 下 
只 有 类 型 文件 posts, 在 查询 时 可 以 指定 索引 文件 为 baidu\it-home, 指定 类 型 文件 为 
baike、posts, 从 而 实现 多 个 索引 文件 和 多 个 类 型 文件 查询 。 


3.2.2 query 查询 


利用 查询 语句 进行 查询 时 ,在 查询 体 中 使 用 query 语句 , 即 可 执行 对 现 有 存储 数据 的 查 
询 。 代 码 段 3. 1 是 使 用 query 语句 查询 所 有 数据 的 示例 。 


代码 段 3.1: 使 用 query 语 句 查 询 所 有 数据 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 
_search -drf 
"bery": { 
"atch all": {} 
} 


pa 
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3.2.3 from/size 查询 


在 检索 过 程 中 ,可 以 控制 结果 的 规模 以 及 从 哪个 结果 开始 返回 , 即 在 请 求 中 可 以 设置 相 
应 的 属性 ,其 中 : 

。 from: 该 属性 指定 从 哪个 结果 开始 返回 (默认 是 0) 。 

。 size: 该 属性 指定 查询 的 结果 集中 包含 的 最 大 文档 数 (默认 是 10) 。 

基于 上 述 内 容 的 查询 体 ( 不 含 HTTP 方 法 、 索 引文 件 名 、 类 型 文件 名 等 信息 ,限于 篇 幅 ， 
本 章 后 面 多 数 采 取 这 种 表示 方法 ) 如 代码 段 3. 2 所 示 。 


代码 段 3.2: 含有 fram, size 属 性 的 查询 体 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 
_search -dd'{ 

“Foot's 5; 

"size": 15, 

"auery": { 

"temm": { "content": "yoona" } 

} 

»' 


3.2.4 检索 结果 排序 


信息 检索 结果 集合 的 排序 策略 对 用 户 和 网 站 开发 者 双方 来 说 都 是 非常 重要 的 ,因为 很 
少 有 人 对 排名 很 靠 后 的 检索 结果 给 予 充分 的 重视 ,前 10 个 检索 结果 对 所 有 用 户 来 说 都 很 重 
要 。 其 实 ,在 Elasticsearch 的 检索 结果 中 ,也 可 以 设置 不 同 字段 对 应 的 排序 权重 ,然后 将 其 
应 用 于 检索 结果 排序 。 例 如 ,在 索引 文件 baidu 的 类 型 文件 baike 下 ,可 通过 指定 fields 数 
组 ,在 title、content 两 个 字段 中 搜索 给 定 关 键 字 。 假 设 设置 关键 字 在 title 字段 中 出 现时 的 
权重 是 2 ,而 在 content 中 出 现时 的 权重 是 1, 可 以 参照 图 3. 1 中 的 方法 (图 左 侧 是 代码 实现 ， 
图 右 侧 是 针对 baike 数据 集 的 检索 结果 ,后 同 ) ,将 title 字段 写成 title*2, 即 表示 在 查询 时 设 
置 title 字段 权重 为 2; 而 对 content 字段 不 加 修改 ,其 权重 为 默认 值 1。 

执行 查询 过 程 中 ,如 果 加 入 sort 子 句 ,可 以 不 针对 某 个 具体 的 字段 ,而 是 针对 默认 的 排 
序 分 数 _score 按 顺 序 或 逆序 排序 。 代 码 段 3. 3 给 出 了 对 match 的 查询 结果 的 排序 方法 
示例 。 
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http://localhost-9200/baidu/baike/ 
_search POST ™ 


“qery”: { 
“multi_match”; { 
“query”: “能量 ”， { 
“fields”: [ "total”: 313, 
title 2°, “max_score”: 27.915726, 
“content” Vv “hits*: [ 
和 


: “能量 (energy) 是 物质 的 时 空 分 布 可 能 变化 程度 的 度量 ， 
的 盾 能 关系 式 : E=MC*。 能 鲁 的 单位 与 功 的 单位 相同 ， 在 国际 单位 制 
单位 ，1 电 子 优 =1.602,18x10 -~ 19 焦 。 物 理 领域 ， 也 用 尔格 (erg 
分 类 ， 能 量 可 分 为 机 械 能 、 化 学 能 、 热 能 、 电 能 、 仿 射 能 、 核 能 、 光 

如 场 也 具有 能 量 。 能 量 的 本 质 是 物 一 个 物理 量 


8 理 意义 上 四 维 空间 度量 的 : 
物质 在 不 同 维度 所 表现 出 来 的 物质 属性 ， 具 体 着 见 资料 《四 维 空间 与 角 


[提交 请 求 ] 难 让 JSON | 加 易 汉 "lastModifyTime”: “2018-04-05” 


图 3.1 设置 不 同 字 段 的 权重 


代码 段 3.3; 基于 _score 对 结果 排序 
curl -H 'Content- Type: application/json' - XPOST localhost:9200/baidu/baike/ search -d '{ 
"anery": { 
"match": { 
"content": " 怪 味 豆 " 


] 
"sort": [{ "score": "desc" 也 // 排 序 方式 


wr 


对 于 指定 字段 的 排序 而 言 ,可 以 指定 _last 将 无 值 的 结果 放 在 检索 结果 的 最 后 (如 果 指 
定 为 _first 则 是 将 其 放 在 检索 结果 的 首位 )。 执 行 时 ,Elasticsearch 会 开辟 一 部 分 内 存 空 间 
用 于 保存 和 解析 字段 的 倒 排 索引 ,这 一 功能 称 为 fielddata, 默 认 禁 止 该 功能 。 要 实现 这 样 的 
排序 ,需要 先 执行 代码 段 3.4 来 启用 fielddata 功能 ,再 执行 代码 段 3. 5 完成 检索 和 排序 。 


代码 段 3.4: 为 title 启 用 fielddata 功能 
curl - H 'Content- Type: application/json' - XPUT localhost:9200/baidu/ mapping/baike -da '{ 
// 注 意 使 用 Fr 方法 


"properties": { 
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"title": { // 指 定 的 field 
"type": "text 
"fielddatan: true // 启 用 fielddata 功 能 


代码 段 3.5: 指定 默认 值 的 排序 策略 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/baida/baike/ 
_search -d 'f 
"auery": { 
"atch all": {} 
}, 
"sort": [ 
{ 
"title": { // 指 定 的 field 
"order": "desc", 
"missing": " last" // 将 无 值 的 结果 放 在 最 后 显示 
} 


] 
提 


默认 情况 下 ,检索 结果 返回 的 是 完整 的 JSON 格式 的 文档 。 可 通过 _source 来 引用 想 要 
返回 的 检索 结果 ( 即 搜索 结果 hits 中 的 _source 字段 ,如 图 3. 1 右 侧 所 示 )。 也 就 是 说 ,如 果 
不 想 返回 完整 的 源 文档 结构 ,可 以 返回 指定 的 部 分 字段 的 检索 结果 集 , 这 类 似 于 针对 关系 型 
数据 库 管 理 系统 的 SQL 查询 语句 中 的 “select 部 分 字段 名 from 某 数据 表 ” 中 的 “部 分 字段 
名 ”部 分 。 代 码 段 3.6 是 简化 了 的 _source 字段 , 它 仍 会 返回 一 个 叫 作 _source 的 字段 ,但 是 
这 里 仅 包含 指定 的 几 个 字段 。 在 图 3. 2 所 示 的 例子 中 ,针对 给 定 的 检索 词 “ 世 界 历史 人 物 ” 
进行 了 分 词 处 理 ,也 就 是 说 ,会 检索 到 在 指定 字段 中 包含 “世界 “世界 历史 “历史 人 物 ” 等 特 
征 词 的 结果 集 。 


代码 段 3.6: 通过 match 参 数 指定 字段 和 检索 词 ,排序 后 返回 指定 数量 的 指定 字段 的 检索 结果 集 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 
_search -df 
"auery™: { 
"match": { 
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"taglist": "世界 历史 人 物 " 
} 


"owt™"s { 
mastMpdifyrimen: { 
"order": "ascn /| 按照 这 里 指定 的 lastMpdifyrime 字 段 升序 排序 
} 
}, 
™_ souroe": ["url", "taglist"], // 显 示 的 结果 集 
"size": 10 // 返 回 的 结果 集 数量 


http://localhost:9200/baidu/baike/ 


_search JPosT 
{ 
“quaery : { 
“match”; { y, 
“taglist”;“ 世 界 历史 人 物 ” VW “hits": { 
1 “total”: 1125, 
人 "max_score: null, 
“sort”; { vv “hits": [ 
“lastllodifyTine”: { { 


order”: “asc 
“_source”: [ 
“url”, 
“taglist” 


"size”, 10 


| 提交 请 求 | 验证 JSON | 双 另 六 


图 3.2 指定 字段 的 检索 


3.2.5 高 亮 搜索 词 


在 查询 中 使 用 highlight 子 句 ,可 以 在 查询 结果 中 将 每 一 条 结果 的 一 个 或 多 个 字段 中 出 
现 的 搜索 词 高 亮 显示 ,高 亮 的 部 分 将 会 在 查询 结果 后 面 以 "highlight" : {高 亮 的 内 容 } 的 格式 
显示 ,其 中 高 亮 的 搜索 词 默认 被 标记 所 strong 二 二 /strong 二 包围 ,在 实际 使 用 中 ,可 以 人 为 
规定 这 一 标记 的 写法 ;也 可 以 使 用 fragment_size 指定 高 亮 显示 的 搜索 词 所 在 上 下 文 的 长 
度 , 以 及 使 用 number_of_ fragments 指定 包含 高 亮 搜索 词 的 片段 数量 。 代 码 段 3.7 实现 了 
对 查询 结果 中 的 搜索 词 “消息 队列 ”的 高 亮 显 示 , 其 检索 结果 如 图 3. 3 所 示 。 
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代码 段 3.7: 高 亮 显 示 查 询 结 果 中 的 搜索 词 
curl -了 'Content— Type: application/json' - XFOST localhost:9200/it- home/ 
Posts/_search -ad '{ 


"auery": { 
"match": { 
"content": "消息 队列 " // 要 高 亮 显示 的 搜索 词 
} 
]v 
"highlight": { 
"pre tags": ["< strong> "], // 规 定 高 亮 标记 写法 
"Pest tags": ["< /strong> "], 
"fielgs": { 
"oontent": { 
"fragment size": 10, // 规 定 高 亮 搜 索 词 所 在 上 下 文 长 度 
"numiber of fragments": 3 // 规 定 显 示 多 少 条 高 亮 的 结果 


了 "hiohlioht:{ 
本 "content": [ 
"如果 您 从 工作 中 之 听 过 但 未 有 接触 过 <strong> 消 息 </strong> 对 <strong> 队 列 </strong>” 


“<strong> 消 息 </strong><strong> 队 列 </strong> 五 、<strong> 消 息 </strong><strong> 队 列 </strong>” 


图 3.3 搜索 词 “消息 队列 ?被 加 上 到 strong 之 标记 并 高 亮 显示 


3.2.6 查询 模板 


Elasticsearch 允许 在 查询 语句 中 用 template 设置 语句 模板 和 人 参数。 在 执行 查询 时 , 设 
置 好 的 参数 将 被 填充 到 语句 中 对 应 的 位 置 并 拼 成 一 条 完整 的 语句 执行 。 代 码 段 3. 8 实现 了 
基于 模板 的 查询 。 本 例 将 字段 名 搜索 词 和 搜索 结果 数量 分 别 作为 参数 传人 查询 语句 来 执 
行 查询 。 


代码 段 3.8: 基于 模板 进行 查询 

curl -了 'Content- Type: application/json" ~ XEOST localhost:9200/it- hame/ 

Posts/_search/terplate -d '{ // 这 里 注意 在 末尾 要 加 上 terplate 
"inline": { 
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"auery": { 
"match": { 
"Htmy field}}": "ffmy value}}" // 设 置 形式 参数 ,使 用 {{ }] 括 起 来 
} 
到 
"size": "{fmy_size}}" 
}, 
"params": { 
"my._field": "category", // 设 置 实际 参数 
"my value": mava 
"my size": 5 
} 
让 


33 检索 进 阶 


Elasticsearch 提供 了 一 个 基于 JSON 格式 的 完整 的 Query DSL, 用 于 定义 查询 。Query 
DSL 被 视 为 查询 的 抽象 语法 树 , 由 简单 查询 、 复 合 查询 两 种 类 型 的 语句 组 成 。 查 询 子 句 的 
作用 互 不 相同 ,具体 取决 于 它们 是 在 查询 上 下 文 还 是 过 滤器 上 下 文中 被 使 用 。 本 节 主 要 对 
Query DSL 进行 介绍 ,涉及 全 文 检索 . 词 项 检索 .复合 查询 .跨度 查询 .特殊 查询 等 。 


3.3.1 全 文 检索 
全 文 检索 通常 用 于 在 全 文字 段 上 执行 查询 。 本 节 对 全 文 检索 中 的 match match_ 
phrase、match_phrase_prefix、multi_match、simple_query_string 等 查询 项 进行 介绍 。 


1. match 查询 
match 查询 子 句 可 接受 文字 数字 和 日 期 等 类 型 的 数据 ,match 子 句 用 于 查询 指定 索引 
下 的 所 有 文档 (如 代码 段 3.9 所 示 ), 也 可 以 利用 size 指定 返回 结果 集 的 大 小 。 


代码 段 3.9: match 子 句 相当 于 “select content from 某 数据 表 ” 
curl - H 'Content— Type: application/json' - XFOST localhost:9200/it- home/ 
posts/ search -ad '{ 
"auery": { 
"atch": { 
"oontent": 唑 序 员 " 
} 
} 
}' 
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代码 段 3. 10 演示 了 执行 一 次 match_all 查询 并 且 返 回 第 11 一 15 个 文档 的 代码 实现 。 


代码 段 3.10: 匹配 所 有 文档 且 返 回 top 1 一 巧 的 记录 集 


curl -了 'Content- Type: applicaticon/json' - XFOST localhost:9200/it- home/ 
Posts/_search -da '{ 


"hery": { 

"atch all": {} 
和 
"Eram": 10， 
"size": 5 


p' 


代码 段 3. 11 给 出 match_all 查询 并 且 指 定 字段 (lastModifyTime) 的 升序 排序 的 实现 方 
法 ,返回 满足 条 件 的 3 条 记录 在 关系 型 数据 库 管 理 系统 中 ,相当 于 SQL 语句 “select top 3 * 
from 某 数据 表 order by lastModifyTime”。 


代码 段 3.11: 匹配 所 有 文档 且 检索 结果 按 指定 的 字段 排序 ,返回 前 3 条 记录 


curl -H 'Content- Type: applicaticn/json' - XEOST localhost:9200/baidu/baike/ 
_search -q '{ 


"qhnery": { 
"atch all": {} 
jj 


nsort": { 
"astModifyTime": { // 指 定 的 排序 字段 
"order": "ascn // 排 序 策略 
] 
"size": 3 // 返 回 的 结果 集 大 小 


py 


2. match_phrase 查询 


match_phrase 查询 对 文本 进行 分 析 , 并 在 分 析 过 的 文本 中 构建 一 个 短语 查询 。 其 中 的 


slop 参数 定义 了 在 查询 文本 的 词 项 之 间 间 隔 多 少 个 未 知 单词 才 视 为 短语 匹配 成 功 。 代 码 实 
现 见 代码 段 3. 12。 


代码 段 3.12: match phrase 查询 


curl —H 'Content- Type: applicaticn/json' — XPOST localhost:9200/baidu/baike/ 
_search-d '{ 
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3. match_phrase_prefix 查询 

match_phrase_prefix 与 match_phrase 基本 相同 ,不 同 的 是 这 里 的 查询 信息 以 短语 形式 
出 现 , 查 询 时 考虑 的 是 最 后 一 个 词 的 前 缀 匹配 ,其 中 的 参数 max_expansions 表示 短语 中 最 
后 一 个 词 将 与 多 少 候选 词 进行 匹配 (默认 值 为 50)。 代 码 段 3. 13 使 用 “国防 ”进行 查询 ,并 
将 max_expansions 设置 为 10, 其 含义 是 Elasticsearch 为 输入 的 短语 中 最 后 一 个 词 项 准备 
候选 匹配 词 的 数量 ,这 里 不 排除 候选 词 中 未 出 现 用 户 需 要 的 词 的 可 能 性 。 


代码 段 3.13: match Fhrase Prefix 查 询 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 
_search -qd '{f 
"anery": { 
"natch phrase prefix": { 
"oontent": { 
"aquery": "国防 "， // 注 意 要 找 一 个 存在 的 短语 
"max_expansions": 10 


4. multi_match 查询 

Elasticsearch 支持 使 用 multi_match 子 句 进行 跨 字段 检索 (只 需 写 明 需 要 检索 的 多 个 
目标 字段 即 可 ) ,并 同时 从 多 个 字段 中 返回 包含 指定 检索 词 的 内 容 。 代 码 段 3. 14 实现 了 在 
title、content 两 个 字段 中 对 关键 词 “华夏 "的 查询 。 
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代码 段 3.14: 利用 multi metch 在 多 个 字段 中 检索 
curl -H 'Content- TYPe: applicaticn/json' — XPFOST localhost:9200/baidu/baike/ 
_search -df 

"apery": { 

"alti match": { 
"qbery": " 哗 夏 " 
"fields": [ // 指 定 在 哪些 字段 中 进行 检索 

"title", "oontent™" 


5.simple_query_string 查询 


与 其 他 的 查询 类 型 相 比 ,simple_query_string 查询 支持 Lucene 所 有 的 查询 语法 。 对 于 


给 定 的 内 容 ,simple_query_string 查询 使 用 查询 解析 器 来 构造 实际 的 查询 。 示 例如 代码 
段 3. 15 所 示 (Rafal,2015)。 


代码 段 3.15: simple_query_string 查 询 


Curl - H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 
_search -d '{ 


"anery": { 
"simple query string": { 
"query": "title: 中 国 ^2+title: 日 本 -content: 美 国 "， 


// 注 意 , 这 里 的 加 号 和 减 号 前 的 空格 不 能 省 略 
"flags": "ALL"” // 设 置 查询 中 支持 的 Iacene 查 询 符号 ,如 + 表示 AND、- 表 示 NOT 


代码 段 3. 15 中 出 现 的 查询 是 典型 的 Lucene 查询 模式 ,其 中 ,“title: 中 国 ^2” 是 
指 在 title 字段 中 要 包含 字 符 囊 “中 国 ” 且 其 权重 为 2;“ 十 title: 日 本 ”是 指 在 title 字段 中 
还 要 同时 包含 字符 串 “ 日 本 ", 只 不 过 该 字符 事 的 权重 为 1 ,这 些 权重 会 影响 到 最 终结 果 
排序 ;“-content: 美 国 ” 是 指 在 content 字段 中 不 能 含有 字符 串 “ 美 国 ”。 
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3.3.2 词 项 检索 


全 文 检索 会 在 执行 之 前 分 析 查 询 字 符 串 ,而 词 项 检索 是 对 存储 在 倒 排 索 引文 件 中 的 确 
切 词 语 进行 操作 ,这 此 查询 通常 用 于 结构 化 数据 (如 数字 、 日 期 和 枚 举 等 ) 而 不 是 全 文本 的 内 
容 。 本 节 将 对 词 项 检索 中 的 term terms \range、prefix、wildcard ,regexp 等 进行 介绍 。 

1. term 查询 

term 查询 仅 匹 配 在 给 定 字段 有 某 个 词 项 的 文档 。 例 如 代码 段 3. 16 即 是 term 查询 。 
term 查询 中 词 项 不 再 被 解析 ,如 果 和 希望 提升 该 term 的 重要 性 ,可 以 在 代码 中 增加 boost 
属性 。 


代码 段 3.16: 含有 boost 的 tem 查 询 
curl - H 'Content— Type: application/json' ~ XFOST localhost:9200/baidu/baike/ 
_searh-d'{ 
"auery": { 
"temm": { //tem 查 询 
"title": { // 查 询 字段 ,给 定 值 及 boost 
walue": "中 国 "， 
"boost": 10 


2. terms 查询 
terms 查询 允许 匹配 包含 某 些 词 项 的 文档 。 例 如 ,如 果 想 查询 在 baidu/baike 文档 的 
title 字段 中 包含 字符 串 “ 中 国 ? 或 “日 本 ”的 文档 ,可 以 采用 代码 段 3. 17 中 的 方法 。 


代码 段 3.17: temms 查询 
curl -H 'Content- Type: applicaticn/json' — XPOST localhost:9200/baidu/baike/ 
_search -df 
"anery": { 
"termms": { 
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3. range 查询 
range 查询 是 范围 查询 ,一 般 只 作用 在 单个 字段 上 ,并且 查询 的 参数 要 封装 在 字段 名 称 
中 。 它 支持 如 下 参数 ; 
gte: 即 大 于 或 等 于 ,表示 范围 下 界 。 
gt: 即 大 于 ,表示 范围 下 界 。 
lte: 即 小 于 或 等 于 ,表示 范围 上 界 。 
lt: 即 小 于 ,表示 范围 上 界 。 
boost: 查询 的 权重 ,默认 值 为 1. 0。 
有 关 range 查询 的 用 法 见 代 码 段 3. 18。 


代码 段 3.18: range 查询 ,其 中 lastMbdifyrime 字段 是 指 百度 百科 最 近 一 次 更 新 时 间 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/baidu/baike/ 


_search -d'{ 
"auery": * 
"range": { //range 查询 
"astModifyrime": { // 指 定 查询 字段 及 其 范围 


"gte": "2018- 04- 05", 
"te": "2018- 09- 15", 
"boost": 2 
} 
} 
} 
所 


代码 段 3. 19 展示 了 在 类 型 文件 baike 中 对 日 期 型 或 时 间 型 字段 (这 里 是 对 
lastModifyTime 字段 ) 进 行 范围 检索 的 方法 , 它 表示 查找 的 是 在 从 当前 时 间 节 点 倒退 12h 
的 查询 结果 集 , 到 当前 时 间 的 筛选 数据 子 集 ( 这 里 的 时 间 可 以 任意 加 减 ,还 可 改 为 "now-3d" 
等 , 意 为 从 现在 开始 往 前 3 天 起 算 ) 。 


代码 段 3.19: 在 range 子 句 中 设 定 lastModifyTime 的 上 下 限 
curl - H 'Content- Type: application/json' — XEOST localhost:9200/baidu/baike/ 
_search -d'f 

"qhery": { 
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1 
这 里 提 到 的 h 和 d 是 时 间 单 位 。Elasticsearch 支持 的 时 间 单 位 有 y( 年 )、M 
(月 )、w( 周 )、d( 日 )、h(12 小 时 制 的 时 )、H(24 小 时 制 的 时 )、m( 分 )、s( 秒 )。 


4. prefix 查询 
prefix 查询 能 够 找到 某 个 字段 中 以 给 定 前 级 开头 的 文档 。 同 样 ,这 里 也 支持 利用 boost 
属性 来 影响 排序 结果 。 基 于 prefix 查询 实现 的 方法 见 代 码 段 3. 20。 


代码 段 3.20: prefix 查 询 
curl -H 'Content- Type: application/json"' - XFOST localhost:9200/baidu/baike/ 
_search -qd '{f 
"pery": { 
"prefix": { //prefix 查 询 
"title": { // 在 title 字 段 中 查询 ,可 指定 值 和 权重 
"wualue": "中 华 " 
"boost": 2 


5. wildcard 查询 

wildcard( 通 配 符 ) 查 询 允 许 在 要 查询 的 内 容 中 使 用 通配符 * 和 ?( 通 配 符 * 表示 任意 多 
个 任意 字符 ,通配符 ?表示 一 个 任意 字符 )。 除 此 之 外 , 它 和 term 查询 相似 ,如 代码 段 3. 21 
所 示 , 只 需 把 term 查询 中 的 term 换 为 wildcard, 在 查询 字段 中 根据 需要 向 入 * 或 ? 即 可 。 


代码 段 3.21: 含有 boost 的 wildcard 查 询 
curl —H 'Content- Type: application/json' - XPOST localhost:9200/baidu/baike/ 
_search -df 
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"auery": { 
"wildcard": { /uildcard 查 询 
"oontent": { // 查 询 字段 ,给 定 值 及 boost 
"walue": "# 豆 
”boost": 10 


6. regexp 查询 

在 对 程序 员 论 坛 数据 集 it-home 的 检索 过 程 中 ,可 能 要 设置 相应 的 from size boost 等 
属性 。 例 如 使 用 regexp( 正 则 表达 式 ) 查 询 的 方式 ,在 数据 集中 的 category 字段 中 搜索 关键 
字 , 为 了 提升 category 字段 的 重要 性 ,在 代码 中 可 提升 其 boost 属性 值 。 也 可 以 同时 指定 多 
个 字段 的 属性 值 。 代 码 段 3. 22 中 利用 regexp 查询 指定 搜索 结果 的 category 字段 必须 为 
“Web 前 端 ?或 数据库 学 习 ”, 并 获取 其 前 10 条 结果 。 查 询 结果 如 图 3.4 所 示 。 


代码 段 3.22: regexp 查询 
curl - H 'Content- Type: applicaticn/jscn' - XPOST localhost:9200/it- hame/ 
posts/ search -d '{ 
Ero 0; 
"size": 10, 
"bery": { 
"regexp": { 
"category": { 
"value": "[Web 前 端 | 数据 库 学 习 ]"， /Web 前 端 三 喇 据 库 学 习 " 
"boost": 10 


3.3.3 复合 查询 


复合 查询 语句 包含 了 其 他 复合 查询 或 简单 查询 ,能 够 结合 其 查询 结果 和 分 值 来 改变 其 
表现 形式 ,或 从 查询 转换 为 过 滤器 上 下 文 。 本 节 对 复合 查询 中 的 bool、boosting 等 查询 进行 
介绍 。 
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Tt 
INRKER oo， 
[RE 
|httpWlocalhost9200/ithome/posts/ Vt 

search/ [PosT "successful": 5 
"skipped": 0, 
“from”: 0, failed": 0 
"size”: 10, 
“qery”: { “hits”: 
“regexp”; { “total : 487, 
“category”: { “max_score”: 10, 
“value”: “[Web 前 端 | 数据 库 学 习 ]”， 本 "hits":[ 
“boost”: 10 { 


: "2018-4-3 08:00:08", 

前 eld 我 们 在 学 习 sqlser 
重要 的 内 容 ， 以 实现 数据 库 的 优化 。 务 1、 简 介 事务 是 
和 吉政， ° DEMS 对 事务 的 和 来 堆 调 ， Ms 


图 3.4 regexp 查询 


1. bool 查询 
bool 查询 是 一 种 根据 对 结果 的 必要 程度 将 不 同 查询 子 句 组 合 起 来 的 查询 方式 。 在 


bool 查询 中 可 以 同时 使 用 must ,filter\should ,must_not 等 子 句 ,之 后 可 与 基本 检索 方法 里 
的 match 和 term 查询 结合 使 用 。 代 码 段 3. 23 是 在 程序 员 论 坛 数据 集 it-home 中 检索 
category 字段 中 含有 “开发 ”java 且 不 含 “. net” 字 符 串 的 结果 集 , 其 中 对 java 的 查询 在 
filter 子 句 中 ,不 考虑 权重 。 查 询 结 果 如 图 3. 5 所 示 。 


代码 段 3.23: 查询 category 字段 中 含有 “开发 "java 且 不 含有 ” .net" 的 结果 
curl -H 'Content- Type: application/json' - XPOST localhost:9200/it- haome/ 
posts/ search-d '{ 
"bery": { 
"bocl": { 
Mmmust": { 
"match": {"category": "开发 由 
] 
"filter": { 
"tem": {"category": "java"} 
] 
"mst not": { 
"temm": {"category": ".net"} 
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http-//localhost-9200/it-home/posts/ 
search/ 


{ 
“qery”: { 
“bool”: { 
“mst”: { 
“natch”; { 
“category”: “开发” 


}, 
filter’: { 


ea “ite”: "Dava 学 习 ] ]ava 闫 和 对 旬 的 概念"， 


. 
} 


omenL ava 旦 和 的 得 洒 吉 ， 理 和 Java 首先 要 名 与 对 和 这 末 人 人 | 

L ee ee A 村 
<stdoh> 2. nt main 4 udent 9， truct Studen 

提交 请 求 | 痊 下 JSON | 四 罗汉 fioat score; 9， ); 10. 11。 /通过 结构 仁 来 定义 变量 12。 struct Student st 


图 3.5 bool 查询 的 结果 


2，boosting 查询 

boosting 查询 可 将 匹配 到 的 结果 降级 处 理 。 与 带 有 not 子 句 的 bool 查询 不 同 ， 
boosting 查询 结果 中 仍然 会 包含 不 符合 预期 的 词 项 ,但 其 分 值 会 降低 。 代 码 段 3. 24 实现 了 
在 有 关 java 的 分 类 中 查询 内 容 与 json 不 相关 的 信息 。 关 键 词 json 处 于 negative 子 句 中 ,其 
结果 的 分 值 将 会 根据 negative_boost 的 值 被 相应 降低 。 


代码 段 3.24: boosting 查 询 
curl -H 'Content— Type: application/json' - XEOST localhost:9200/it- home/ 
Posts/ search-d '{ 


"anery": { 
"boosting": { 

"positiven: { // 预 期 相关 的 信息 

"tem": { 
"category": "java" 

} 

bb 

"negative": { // 预 期 不 相关 的 信息 
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"negative boost": 0.2 // 不 相关 信息 要 降低 的 分 值 


3.3.4 跨度 查询 


跨度 查询 是 一 种 低级 别 的 、 基 于 词 项 相对 位 置 的 查询 ,可 以 对 指定 项 的 顺序 和 接近 度 进 
行 控制 ,可 用 于 对 法 律 文件 或 专利 等 的 非常 具体 的 查询 。 除 span_multi 查询 之 外 ,跨度 查 
询 不 能 与 非 跨度 查询 复合 使 用 。 本 节 对 span_term、span_or、span_containing、span_within 
等 查询 进行 介绍 。 

1. span_term 查询 

span_term 查询 可 以 查询 含有 查询 词 项 的 一 段 文本 ,这 一 功能 相当 于 Lucene 中 的 
SpanTermQuery。 代 码 段 3. 25 实现 了 对 含有 词 项 java 的 文本 的 查询 。 


代码 段 3.25: span_tem 查 询 
curl -日 'Content- Type: application/json"' - XPOST localhost:9200/it- hame/ 
Posts/ search-d '{f 
"qbery": { 
"span tem": { 
"content": { 
"value": ava", 


"boost": 2 


2. span_or 查询 
span_or 查询 可 以 匹配 span_term 子 句 查询 结果 的 并 集 ,这 一 功能 相当 于 Lucene 中 的 
SpanOrQuery。 代 码 段 3. 26 实现 了 对 含有 词 项 java json 或 jquery 的 文本 的 查询 。 


代码 段 3.26: 查询 含有 词 项 java、jscon 或 jquery 的 文本 
curl -了 'Content- Type: application/json' - XEOST localhost:9200/it- home/ 
Posts/_search -qd 'f 
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"anery": { 
"span or": { 
"clauses": [ 
{"span temm": {"oontent": "java"}]}, 
{"span_ temm": {"oontent": json"}}, 
{"span_ temm": {"oontent": "jquery"}} 
] 
} 
} 


3。span_containing 查询 

span_containing 查询 含有 little 子 句 和 big 子 句 ,在 查询 时 一 旦 发 现 big 子 句 的 匹配 项 
中 包含 了 little 子 句 中 的 匹配 项 ,那么 big 子 句 的 匹配 项 将 作为 查询 结果 返回 。 该 查询 功能 
相当 于 Lucene 中 的 SpanContainingQuery。 代 码 段 3. 27 实现 了 在 词 项 “出 现 ”" 和 “错误 ”的 
匹配 项 中 对 含有 词 项 500 的 匹配 项 的 查询 ,结果 如 图 3.6 所 示 , 图 中 的 方 框 标 出 了 词 项 “出 
现 ” 和 ”错误 ?在 文中 形成 的 跨度 ,而 词 项 500 正 处 于 其 中 。 其 中 big 子 句 中 的 span_near 查 
询 是 一 种 查找 邻近 词 项 的 跨度 查询 ,后面 的 slop 指定 了 两 个 词 项 之 间 可 以 存在 多 少 个 不 匹 


配 的 词 项 。 
代码 段 3.27: 查询 词 项 “出 现 " 和 ”错误 "的 匹配 项 中 含有 词 项 500 的 匹配 项 的 结果 
curl -日 'Content- Type: application/json"' - XPOST localhost:9200/it- haome/ 
posts/ search -ad '{ 
"qbery": { 
"span_oontaining": { 
"ittle": { 
"span_temm": {"content": "500"} // 里 度 中 的 词 项 
外 
uig": { 
"apban_nearn: { 
"clausesn: [ 
{nspan_temm": {"content": "出 现 "}}, // 两 个 词 项 确定 了 一 个 跨度 
{"span_term": {"oontent": "错误 中 1} 
J], 
"slop": 10, 
"in_order": true 
} 
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jt-home.ora/thread-99871-1-1.html", 
] ubuntu nginx php7.1°, 


"| ": "2018-1-26 08:00:02"， 
"content": "sudo apt-get update sudo apt-get install -y language-pack-en-base locale gen en_US.UTF-8 sudo apt-get install software-properties- 
common sudo LC_ALL=en_US.UTF-8 add-apt-repository ppa:ondrej/php sudo apt-get update sudo apt-get -y install php7.1 sudo apt-get -y 
install php7.1-mysql sudo apt-get install php7.1-fpm apt-get install php7.1-curl php7.1-xml php7.1-mcrypt php7.1-json php7.1-9d php7.1- 
mbstring sudo apt-get -y install nginx sudo apt-get -y install mysqj-server-5.6 原文 谤 撞 : https://www.cnblogs.com/php-linux/p/6016439.html 
nginx 配置 文件 ; server { listen 80; listen [::]:80; server_name abc.cn; root /var/www/abc_cn; index index.html index.php; location / { try_files 
Se $uri/ /index: ben ring; } } location ~ Vphp$ { indude snippets/fastcgi-php.conf; fastcgi_pass unix:/run/php/php7.1-fpm.sock; } } 
Lpass unix:/run/php/php7.0-fpm.sock;， 导 致 出 现 502 模 误 ， 和 访问 php 文 件 直 接 下 载 了 ， 把 7.0 换 成 .1 后， 就 解 


复制 局 
了 Eh toe (i Cr] 777 


图 3.6 查询 两 个 词 项 所 确定 的 跨度 中 包含 的 特定 词 项 匹配 项 


4. span_within 查询 
span_within 查询 也 含有 little 子 句 和 big 子 句 ,在 查询 时 一 旦 发 现 little 子 句 的 匹配 项 


包含 在 big 子 句 中 的 匹配 项 中 ,那么 little 子 句 的 匹配 项 将 作为 查询 结果 返回 ,该 查询 功能 
相当 于 Lucene 中 的 SpanWithinQuery。 代 码 段 3. 28 实现 了 对 词 项 “出现” 和 “错误 ”所 确定 


的 跨度 中 含有 词 项 500 的 匹配 项 的 查询 ,查询 结果 同 图 3. 6。 


代码 段 3.28: 查询 词 项 “出 现 " 和 “错误 ”所 确定 的 跨度 中 含有 词 项 500 的 匹配 项 


curl - H 'Content- Type: application/json"' - XPOST localhost:9200/it- hame/ 


posts/ search -df 
"query": { 
"span within": { 

"ittle": { 

"span temm": {"content": "500"} 
}, 
bign: { 

“span near": { 

"clauses": [ 
{"span_ term": {"oontent": "出 现 "}}, 


// 跨 度 中 的 词 项 


// 两 个 词 项 确定 了 一 个 跨度 
{"span_tem": {"content": "错误 中 } 


]， 
"slop": 10, 
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"in_order": true 


3.3.5 特殊 查询 
除 上 面 提 到 的 几 类 查询 方式 以 外 ,还 有 一 些 特殊 的 查询 。 本 节 对 more_like_this 查询 


进行 介绍 ,3. 3.6 节 对 script 查询 进行 介绍 。more_like_this 查询 得 到 与 指定 文本 相似 的 文 
档 , 在 这 里 可 以 使 用 的 部 分 参数 如 下 (Rafal,2015) : 


fields: 查询 所 作用 的 字段 的 列表 ,默认 是 _all。 

like_text: 指明 文档 应 比较 的 内 容 。 

min_term_freq: 指定 文档 中 词 项 出 现 的 最 低频 次 , 低 于 该 值 的 词 项 将 被 忽略 ,默认 
是 2。 

min_doc_freq: 指定 词 项 应 至 少 在 多 少 个 文档 中 出 现 才 不 会 被 忽略 ,默认 是 5。 
min_word_length: 指定 单个 单词 的 最 小 长 度 , 低 于 该 值 的 单词 将 被 忽略 ,默认 是 0。 
max_query_terms: 指定 在 生成 的 查询 中 查询 词 项 的 最 大 数目 ,默认 是 25。 
max_doc_freq: 指定 含有 被 搜索 词 项 的 文档 出 现 的 最 高 频次 ,高 于 该 值 时 ,将 忽略 输 
和 人 文档 中 的 词 项 ,默认 是 0, 即 无 限制 。 

max_word_length: 指定 单个 单词 的 最 大 长 度 ,高 于 该 值 的 词 项 将 被 忽略 ,默认 是 0， 
即 无 限制 。 

stop_words: 指定 忽略 词 集 。 

boost: 提升 一 个 查询 的 权重 时 使 用 的 权重 ,默认 是 1.0。 

analyzer: 指定 用 于 分 析 内 容 的 分 词 器 。 


more_like_this 查询 示例 代码 如 代码 段 3. 29 所 示 , 该 代码 段 查询 与 指定 的 两 条 存储 在 
Elasticsearch 中 的 信息 以 及 一 条 额外 的 信息 相似 的 结果 。 其 中 ,在 fields 子 句 中 指定 了 title 
和 content 两 个 字段 ,这 是 more_like_this 查询 的 执行 范围 ;在 like 数组 中 前 两 个 对 象 分 别 
指定 了 it-home 索引 中 posts 类 型 下 的 某 个 特定 id 中 的 文档 内 容 , 而 后 面 的 文本 是 额外 的 
自 定义 查询 字符 串 ;min_term_freq 表示 信息 在 文档 中 出 现 的 最 小 次 数 ; max_query_terms 
表示 要 显示 的 匹配 结果 的 最 大 条 数 。 
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代码 段 3.29: more_like this 查 询 
curl -了 'Content— Type: application/json' ~ XFOST localhost:9200/it- home/ 
posts/ search-d '{ 


"auery": { 
"more like this": { /hore like this 查 询 
"fielgds": ["title", "oontent"], // 查 询 字段 
muixen: [ // 指 定 应 比较 的 内 容 


{ 
"ingex": it- home", 
"_type": "posts", // 对 齐 
" id": "ViVbrJFOOdyiPY46b3B" 
和 
{ 
"index": it- home", 
"type": posts", 
"id": "ViVb4paopdymPY46b5m" 
hj 
"现在 我 们 来 写 一 个 测试 程序 " // 可 以 直接 指定 额外 的 相关 内 容 
J, 


"min tem freq": 1, // 表 示 信 息 在 文档 中 最 少 出 现 多 少 次 才能 被 检 出 
"max_query temms": 12 // 规 定 显示 结果 的 最 大 条 数 
} 
} 
y' 
3.3.6 脚本 


脚本 (script) 模 块 可 以 使 用 script 子 句 来 编辑 表达 式 , 当 执行 查询 时 ,script 子 句 可 以 生 
成 一 个 由 外 部 参数 计算 出 的 特定 字段 ,插入 到 原来 的 查询 语句 中 执行 ;或 者 在 查询 中 通过 自 
定义 的 计算 方法 算出 搜索 结果 的 得 分 。script 子 句 默认 使 用 的 脚本 语言 是 painless。 一 般 
情况 下 子 句 中 包含 3 条 语句 ,下 面 给 出 script 子 句 的 一 般 格式 : 


"script": { 
mang": wn, // 这 里 设置 使 用 何 种 脚本 语言 
"inline" | "stored" | "filen: wm", // 这 里 编辑 表达 式 ,给 出 形式 参数 
"params": {… } // 这 里 给 出 实际 参数 

} 


Elasticsearch 6.0 以 上 的 版 本 默认 开启 script 查询 功能 。 但 是 为 了 提高 安全 性 ,不 要 以 
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root 用 户 启 动 ,不 要 将 Elasticsearch 操作 直接 暴露 给 用 户 ,不 要 将 Elasticsearch 直接 暴露 
在 互联 网 上 。 另 外 ,Elasticsearch 提供 了 两 个 配置 项 ,可 以 设置 script 查询 的 类 型 和 内 容 。 
例如 ,在 Elasticsearch 的 配置 文件 elasticsearch. yml 中 添加 以 下 两 行 配 置信 息 , 允 许 脚 本 搜 
索 和 更 新 ,允许 脚本 类 型 为 inline: 


script.allowed contexts: search, update /加 认为 none, 人 允许 所 有 执行 内 容 
script.allowed types: inline /默认 为 none 允许 所 有 类 型 


设置 完成 后 重新 启动 Elasticsearch 。 


时 
Ep Groovy、JavaScript 和 Python 在 Elasticsearch 5.0 时 已 被 官方 齐 用 , 在 
Elasticsearch 6.0 中 已 被 完全 移 除 。 


script 查询 允许 使 用 脚本 为 查询 提供 数据 。 在 查询 中 定义 参数 并 填充 到 查询 语句 中 ， 
形成 一 条 完整 的 查询 语句 。script 查询 可 以 被 编译 和 缓存 以 更 快 地 执行 。 如 果 在 编写 查询 
语句 时 ,多 段 代 码 除 少量 参数 不 同 之 外 基本 相同 ,最 好 使 用 script 语句 ,只 要 将 不 同 参数 分 
别传 递 到 语句 中 即 可 。 代 码 段 3. 30 实现 了 在 whale 索引 文件 下 的 log 类 型 文件 中 的 查询 ， 
脚本 查询 条 件 为 日 志 的 size 大 于 160, 结 果 如 图 3.7 所 示 。 这 里 需要 注意 ,字段 log_size 的 
数据 类 型 必须 设置 为 long, 和 否则 类 型 不 匹配 ,查询 将 失败 。 


代码 段 3.30: 查询 whale 索 引文 件 中 日 志 的 size 大 于 160 的 记录 
curl -H 'Content- Type: application/json' -XEOST localhost:9200/whale/log/ 
_search -d'{ 
"anery": { 
eol { 
"ust": { 
"script": { 
"script": { 

"inline": "dpc['log size'] .value> params.size"， ”// 设 置 形式 参数 

"lang": "painless", 

"params": {"size": 160} // 给 出 实际 参数 
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DR 
"took 
| 


imed Ef false, 
”_sh; 


| http://localhost-9200/whale/log/ 


_search POST 
I{ 
"query”: { 
| bool”, { 
| “mst”: { 
“script”: { 
“script”: { 
“inline” 
doc[’ log_size’ ]. valueCparans, size”, { 
“lang”: “painless ， -index : 
| “parans”: { “type’ 
“size”;: 160 > hfsheasctzocnan, 
| } score 
} 和 ee { 
} “custom_ip"; "172,11.153.26", 
} “timestamp": "02/06/2018 08: :21:05", 
| : “http_method": "POST™, 
| a 
上 
| "os": "centos 6.9°, 
: "log_size": 143 
| 提交 请 求 | 验证 JSON | 四 另 半 了 


图 3.7 查询 whale 索 引文 件 中 日 志 的 size 大 于 160 的 记录 的 结果 


在 执行 更 新 操作 时 也 可 以 使 用 script 查询 ,可 以 将 参数 传递 给 inline 子 句 中 的 ctx. _source. 
{字段 名 } 以 进行 数据 更 新 。 代 码 段 3. 31 实现 了 对 某 条 记录 作者 的 修改 。 其 中 ,inline 子 句 
中 的 ctx. _source 是 指 访问 文档 中 的 _source 字段 ,_source 字段 是 文档 中 所 有 字段 的 集合 
例如 代码 段 3.6、3.12 和 3. 20 等 处 均 指 定 了 显示 _source 字段 中 的 一 部 分 ;lang 语句 指定 了 
脚本 中 使 用 painless 语言 ;params 子 句 用 于 向 inline 子 句 中 的 形式 参数 params. name 传递 
实际 参数 。 


代码 段 3.31: 使 用 script 修改 某 条 记录 的 作者 
curl - H 'Content- Type: application/json' — XPFOST localhost:9200/it- hame/ 
posts/AViVbpg- OodyimPY46b20/_update -d '{ // 指 定 了 i 号 
"script": { 
"inline": "ctx. souroe.user= params.name", 
"lang": "painless", 
"params": {"name": "test"} 
} 
}' 


另外 ,script 查询 还 支持 在 inline 子 句 中 使 用 类 似 编程 语言 的 方法 编写 表达 式 。 代 码 
段 3.32 将 doc[L'log_size"] 作 为 变量 使 用 ,实现 了 对 服务 器 日 志 记 录 中 日 志 长 度 的 计算 。 在 
script_fields 子 句 中 ,total_size 是 其 设置 的 名 称 。 在 inline 子 句 中 给 出 了 计算 日 志 总 长 的 
代码 。 
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代码 段 3.32: 使 用 script 查 询 计 算 日 志 长 度 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -df 
"gpery": { 
"match all": {} 
外 
"script fields": { 
"total size": { 
mac { 
"lang": "painless", 
"inline": "int total= 0; for (int i=0; i< doc["1og size'].length;++i) 
{ total+= doc["l0og size'][i]; }retum total;" 


34 聚合 


聚合 (aggregation) 可 以 看 作对 查询 结果 的 汇总 。 例 如 , 先 查 询 出 一 天 内 各 个 时 间 段 的 
HTTP 请 求 ,然后 统计 每 天 的 数据 。 聚 合 真正 强大 的 功能 在 于 它 能 嵌 套 并 实现 多 级 汇总 ， 
每 一 种 聚合 都 有 自己 的 目的 和 输出 ,它们 通常 分 为 4 类 : metric、bucket、pipeline 和 matrix。 
本 节 对 这 4 类 聚合 进行 介绍 。 

metric 是 对 某 个 bucket 中 的 文档 计算 得 到 的 统计 信息 , 它 和 关系 型 数据 库 使 用 的 SQL 
语句 中 的 集 函 数 ( 如 count() .max() 等 ) 的 作用 相似 。 可 见 ,聚合 是 由 一 个 或 多 个 bucket、 零 
个 或 多 个 metric 组 合 而 成 的 统计 结果 。 每 个 文档 中 的 值 会 被 计算 ,以 决定 它们 是 否 匹 配 了 
某 些 bucket 的 条 件 ,如 果 匹 配 成 功 ,那么 该 文档 会 被 置信 相应 的 bucket 中 。 一 个 bucket 也 
能 够 嵌 套 在 其 他 的 bucket 中 ( 即 bucket 是 可 以 租 套 的 )。 对 metric 而 言 , 多 数 仅 使 用 文档 
中 的 值 进行 简单 计算 。 另 外 ,聚合 也 支持 排序 等 属性 ,这 将 在 相关 例子 中 进行 说 明 。 

bucket 是 满足 某 个 条 件 的 文档 集合 , 它 和 关系 型 数据 库 使 用 的 SQL 语句 中 的 group 
by 子 句 的 作用 相似 (但 又 不 一 样 )。 例 如 ,在 校 大 学 生 要 么 属于 本 科 生 群 的 bucket, 要 么 属 
于 研究 生 群 的 bucket。 

pipeline 是 将 其 他 聚合 的 输出 及 其 关联 度量 进行 聚合 的 方式 。 

matrix 在 多 字段 上 操作 ,从 请 求 的 文档 字段 中 提取 信息 ,返回 矩阵 结果 。 


第 3 章 信息 检索 与 聚合 ‘69 ， 


3.4.1 metric 聚合 


metric 聚合 基于 从 文档 中 提取 的 值 来 计算 指标 。 这 些 值 通常 使 用 字段 数据 ,也 可 以 使 
用 脚本 生成 。 本 节 对 metric 聚合 中 的 min、max、sum、avg、stats、extended_stats、value_ 
count 等 聚合 进行 介绍 。 

1.min .max sum avg 聚合 

min、max、sum、avg 聚合 可 以 方便 地 完成 对 最 值 .和 、 平 均值 等 的 统计 。 代 码 段 3. 33 完 
成 对 指定 字段 的 最 小 值 聚合 ,结果 如 图 3. 8 所 示 ( 当 统计 最 大 值 时 ,将 代码 段 3. 33 中 的 统计 


函数 换 成 max 即 可 ,这 里 不 再 袭 述 )。 


代码 段 3.33: 执行 最 小 值 聚合 
curl -H 'Content- Type: application/json' — XFOST localhost:9200/whale/log/ 


_searh-d'{ 
"aggs": { 
"min size": { // 诊 合 的 名 称 
"min": { // 令 计 最 小 值 。 当 统计 最 大 值 时 ,将 min 换 成 max 即 可 


"field": mog size" // 统 计 字段 


“took™: 7, 
"timed_out": false, 
http://localhost:9200/whale/log/ i : { "total": 5,"successful": 5, 
Search POST "total": 1001, 
{ 四 多 “max_score": 1, 
gs { ~ "hits": [ { *_index": "whale”,"_type 
“nmin_size”: { 
"field”: “log_size” 


}y, 
VY “aggregations": { 
¥ "min_size": { 
“value": 51 


图 3.8 最 小 值 聚 合 结果 


类 似 地 ,对 和 、 平 均值 的 统计 只 需 在 代码 的 相应 位 置 使 用 sum avg 即 可 。 代 码 段 3. 34 
完成 对 指定 字段 的 平均 值 聚合 ,而 针对 size 字段 (HTTP 响应 大 小 ) 的 结果 如 图 3. 9 所 示 。 
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代码 段 3.34: 执行 平均 值 聚合 


curl —H 'Content- Type: application/json' — XFOST localhost:9200/whale/log/ 
_search -ad '{ 


"aggs": { 
"avg size": { // 聚 合 的 名 称 


"avg": { / 侍 计 平均 值 。 当 求 和 时 ,将 avg 换 成 am 即 可 
"field": "og size" 


} 
} 
} 
py 
vi 
“took”: 11, 
“timed_out”": false, 
http://localhost:9200/whale/log/ : 
_search JPOST 
{ 
“aggs”: { 
“avg_size”: { 了 
“avg { v "hits :{ 
“field’: “log_size” “total": 1001, 
"1, 
} ~ "hits”: [ { “_index": "whale”,”_type”: "log™,"_id": "M 
}, 
} Y "aggreqations":{ 
V “avg_size”: { 
“value": 276.64835164835165 
} 
} 
} 


图 3.9 平均 值 聚合 结果 


在 完成 上 述 计算 时 ,同样 支持 script 语句 的 使 用 。 代 码 段 3. 35 中 使 用 script 语句 计算 
log_size 的 最 大 值 ,结果 如 图 3. 10 所 示 。 


代码 段 3.35: 执行 平均 值 聚合 
curl -H 'Content- TYPe: application/json' — XPOST localhost:9200/whale/log/ 
_search -qd '{ 
"aggs": { 
"ax with script": { 
"max": { 
"script": { 
"inline": "doc['log size'] .value", 


// 在 inline 子 句 中 指定 log size 
mang": "painless" 
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} 
} 
} 
y' 
[IWRRCRRR or2 
“timed_out": false, 
httpWlocalhost9200/whalelog et 
|_search POST " successful": 5, 
{ "skipped": 0, 
“aggs”: { "failed": 0 
“max_with_script”: { 让 
“max”; { “hits": { 
“script”: { "total": 1001, 
“inline”: “doc[’log_size’ ]. value”, “max_score": 1, 
“lang”: “painless” ~ "hits": [ { ”index": “whal 
} }y, 
} 可 “aggregations": { 
} 可 "max_with_script": { 
} “value”": 500 
} 
} 


图 3. 10 使 用 script 语句 执行 最 大 值 聚合 
2. stats .extended_stats 聚合 


stats 聚合 完成 多 值 统 计 , 返 回 值 包括 计数 .最 小 值 . 最 大 值 . 平 均值 .和 等 。 代 码 段 3. 36 


演示 了 对 相应 字段 进行 多 值 统计 的 方法 .针对 类 型 文件 log 的 返回 结果 如 图 3. 11 所 示 。 同 
样 ,stats 聚合 也 支持 script 语句 和 人 参数。 


代码 段 3.36: 执行 stats 聚 合 


curl -H 'Content- Type: application/json' — XPOST localhost:9200/whale/log/ 
_search -d'{ 


"aggs": { 
"og size stats": { 
"stats": { 
"field": mog size" 
和 


py' 


extended_stats 聚合 则 是 对 stats 聚合 的 功能 扩展 ,可 以 在 上 述 输出 结果 的 基础 上 添加 
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Ri 
"took": 15, 
“timed_out”: false, 


‘http-//localhost-9200/whale/log/ 和 ee { 
[search POST “successful": 5, 
{ "skipped": 0, 

“gps: “failed": 0 
“log_size_stats”: { 让 
i “hits": { 
"total": 1001, 


“field’: “log_size” 


"max_score": 1, 
~ "hits": [ { "_index”: “whale”,”_type”: 
}, 
可 “aggregations": { 
本 "log_size_stats": { 
“count”: 1001, 
“min": 51, 
“max”: 500, 
“avg": 276.64835164835165, 
"sum": 276925 


图 3.11 stats 聚合 结果 


平方 和 、 方 差 和 标准 差 等 指标 ,参见 代码 段 3. 37, 运行 结果 如 图 3. 12 所 示 。 同 样 地 ， 
extended stats 聚合 也 支持 script 语句 和 参数 。 


代码 段 3.37: 执行 extended stats 聚 合 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -q '{ 
"aggs": { 
mog size extended stats": { 
"extended stats": { 
"field": mlog size" 
} 


py 


3. value_count 聚合 


value_count 聚合 是 一 种 单 值 指标 聚合 ,用 来 计算 文档 中 某 个 字段 的 统计 数据 。 首 先 执 
行 代码 段 3. 38 ,为 text 类 型 的 custom_ip 字段 开启 fielddata 功能 ;然后 执行 代码 段 3. 39 ,对 
该 字段 执行 value_count 聚合 ,统计 某 服务 器 日 志 记 录 的 访问 次 数 。 聚 合 结果 如 图 3. 13 


所 示 。 


第 3 章 “信息 检索 与 聚合 (73 ， 


Ti 


“timed_out": false, 


htpJlocalhost9200/whalenlog) 证 和 
_search POST vv > 
' 
“aggs”: { 
“log_size_extended stats”: { 
“extended_stats”: { 
“field’: “log_size” “total": 1001, 
} “max_score": 1, 
i 1 ~ "hits": [ { “_index": “whale","_type": log | 
}, 
} VY “aggregations": { 


¥ “log_size_extended_stats": { 
“count": 1001, 


:276925, 

‘sum_of_squares": 93733215, 
"variance": 17105.264954825398, 
“std_deviation": 130.78709781482803, 
可 “std_deviation_bounds": { 

二 “upper”: 538.2225472780077, 


提交 请 求 | 验证 JSON | 四 易 污 lower": 15.07415601869559 


图 3. 12 extended_stats 聚合 结果 


代码 段 3.38: 为 字段 custam ip 开启 fielddata 功能 
curl -日 'Content- Type: application/jscn' - XPUT localhost:9200/whale/ mapping/l0g -d '{ 


// 这 里 使 用 Far 方法 
"properties": { 
"custom ip": { // 要 开启 fielddata 功 能 的 字段 
"typen: "text", /字段 的 类 型 ,应 与 实际 类 型 一 臻 


"fielddata": true 


EM 


代码 段 3.39: 执行 value_count 聚合 ,统计 访问 次 数 
curl - H 'Content- Type: application/json' - XFOST localhost:9200/whale/log/ 
_searh-d'{ 
"aggs": { 
"custcm ip count": { 
"value count": { 
"fielg": "custam ip" 
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所 
让 历史 记录 
“took”: 169, 
可 交 “timed_out”: false, 
http-//localhost-9200/whale/log/ Mt 
_search POST “successful": 5, 
{ “skipped": 0, 
"aggs”: { "failed": 0 
“custom_ip_cont”; { 站 
“value_comnt”: { ¥ “hits”: { 
“field": “custon ip” 001, 
} ore": 1, 
} ~ "hits": [ { “_index": "whale”,”_t! 
} », 
V¥ “aggregations": { 
本 “custom_ip_count": { 
"value": 1001 
3 
} 


图 3.13 value_count 聚合 结果 


3.4.2 bucket 聚合 
本 节 对 terms、range、date_range、histogram、date_histogram ,filter 聚合 进行 介绍 。 


1. terms 聚合 

terms 聚合 用 于 对 指定 字段 的 内 容 进 行 分 布 统计 。 聚 合 过 程 中 会 动态 构建 多 个 
bucket, 并 对 每 个 bucket 计算 出 一 个 特定 值 。 代 码 段 3. 40 实现 了 对 某 服务 器 上 的 用 户 请 
求 HTTP 服务 状态 码 的 统计 ,结果 如 图 3. 14 所 示 。 注 意 , 代 码 中 的 status_code 字段 也 需 


要 开启 fielddata, 方 法 参照 代码 段 3. 38。 


代码 段 3.40: 执行 temms 聚合 ,统计 用 户 请 求 HITP 服 务 状态 码 
curl ~—H ‘Content— Type: application/json' - XEFOST localhost:9200/whale/log/ 
_search-d'{ 
"aggs": { 
"usagen: { 
"temme": { 
"field": "status coden 
} 
1 
}' 
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Y “aggregations": { 

本 “usage™: { 
“doc_count_error_upper_bound”: 0, 
“sum_other_doc_count”: 0, 

v ee [ 


"key": "200", 
"doc_count": 843 


"key": "503", 
"doc_count": 59 


"key": "302", 
"doc_count": 52 


*key": "404"， 
"doc_count": 47 


图 3. 14 terms 聚合 


2. range 聚合 
range 聚合 基于 多 个 bucket, 在 每 个 bucket 中 定义 一 个 范围 ,用 于 统计 指定 字段 在 该 范 
围 的 值 。 在 聚合 过 程 中 ,利用 从 每 个 文档 中 提取 的 值 针 对 指定 的 范围 进行 检查 ,并 且 返 回 相 
关 或 匹配 的 文档 。 代 码 段 3. 41 实现 了 对 log_size 字段 分 别 在 3 个 范围 内 的 数量 统计 ,结果 
如 图 3.15 所 示 。 


代码 段 3.41: 执行 3 个 不 同 范围 的 range 聚 合 
curl - H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -q '{ 
"aggs": { 
mog size ranges": { 
"range": { 
"field": "og size", 
"ranges": [ 
{"to": 300}, 
{"fram": 200, "to": 500}, 
{"fram": 200} 
] 
} 
} 
} 
py' 
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六 
Y¥ “aggregations": { 
¥ “log_size_ranges”: { 
可 “buckets™: [ 
{ 
“key”: "*-300.0", 
"to": 300, 


“doc_count”: 548 


} 

{ 
"key": "200.0-500.0", 
"from": 200, 
"to™: 500, 
"doc_count": 654 

} 

* 
"key": "200.0-*", 
“from": 200, 
"doc_count": 657 

} 


图 3.15 range 聚合 结果 


在 range 聚合 中 可 以 加 入 keyed 参数 并 设置 为 true, 这 样 可 以 将 返回 值 中 的 key 作为 
这 个 JSON 对 象 的 名 称 。 也 可 以 使 用 key 参数 自 定义 key 的 名 称 。 代 码 段 3. 42 针对 类 型 
文件 log 分 析 字 段 log_size 在 3 个 不 同 范围 内 的 统计 值 , 结 果 如 图 3. 16 所 示 。 同 样 ,range 
聚合 也 支持 script 语句 。 


代码 段 3.42: 使 用 keyed 参 数 , 执 行 3 个 不 同 范围 的 range 聚 合 
curl -H 'Content- Type: application/json' - XPOST localhost:9200/whale/log/ 
_search -d'{ 
"aggs": { 
"og size ranges": { 
"range": { 
"field": "]og size", 
"eyed": true, 
"ranges": [ 
{"key": "short", "to": 200}, 
{"key": "migdle", "fram": 200, "to": 300}, 
{"key": "long", "from": 300} 
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可 "300regations 
¥ “log_size_ranges": { 
WW "buckets": { 
“short":{ 
"to": 200, 
“doc_count": 344 
让 
可 "middle":{ 
“from": 200, 
"to": 300, 
"doc_count": 204 


"doc_count": 453 


图 3.16 range 聚合 结果 


3. date_range 聚合 
date_range 聚合 是 专门 对 时 间 类 型 的 字段 进行 区 段 统 计 的 聚合 。 代 码 段 3. 43 介绍 了 
其 基本 使 用 方法 ,在 特定 时 间 区 段 中 日 志 数量 的 统计 结果 如 图 3. 17 所 示 。 


代码 段 3.43: 执行 特定 时 间 区 段 的 聚合 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -q '{ 
"aggs": { 
nrange": { 
"date range": { 
"field": "timestamp", 


"fommat": "da/MMWyyyy HH:mm:ss", // 根 据 Easticsearch 中 的 实际 数 
// 据 设置 时 间 格 式 
"ranges": [ 
{"fram": "29/05/2018 10:00:00", // 起 始 时 间 
"to": "29/05/2018 12:00:00"} // 截 止 时 间 


4. histogram 聚合 
histogram 聚合 可 以 根据 返回 值 ( 针 对 数值 型 或 日 期 型 的 字段 ) 生 成 将 来 可 创建 柱状 图 
的 聚合 数据 。 代 码 段 3. 44 计算 log_size 字段 以 200 个 字符 为 步 长 划分 的 各 区 段 的 统计 分 
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390regations": tT 
¥ “range™: { 
v “buckets™: [ 
‘ 


“key": "29/05/2018 10:00:00-29/05/2018 12:00:00", 
“from": 1527588000000, 

"from_as_string": "29/05/2018 10:00:00", 

“to": 1527595200000, 

"to_as_string": "29/05/2018 12:00:00", 
“doc_count":9 


图 3.17 指定 时 间 区 段 的 日 志 数 量 统计 结果 


布 情况 ,针对 类 型 文件 log 的 返回 结果 如 图 3. 18 所 示 。 通 过 聚合 ,可 以 得 到 log_size 在 各 
个 区 段 的 数量 。 在 这 个 基础 上 ,可 以 利用 可 视 化 软件 将 上 述 数 据 制作 成 柱状 图 。 


代码 段 3.44: 执行 柱状 图 聚合 ,统计 log_size 字 段 在 固定 间隔 不 同 区 段 中 的 数量 
curl - H 'Content- Type: application/json' - XPOST localhost:9200/whale/log/ 
_search -d'{ 
"aggs": { 
"og size histogram": { 
"histogram": { 

"field": mog size", 

"interval": 200, // 步 长 为 200 

"order": { 

"_key": "desc" // 降 序 排序 
3 


VW “aggregations": { 
可 “log_size_histogram": { 
v “buckets”: [ 
{ 


“key": 400, 
“doc_count : 231 
} 
和 
“key": 200, 
“doc_count": 426 
} 
{ 
“key": 0, 
“doc_count : 344 
} 


] 
} 
二 


图 3. 18 histogram 聚合 结果 
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也 可 以 在 histogram 聚合 中 添加 子 聚 合 , 即 在 现 有 的 聚合 中 啼 套 统计 。 代 码 段 3. 45 实 
现 了 对 每 一 个 聚合 中 再 次 进行 stats 聚合 并 按照 子 聚合 中 的 最 小 值 字段 ( 即 代码 中 的 size_ 
stats. min) 进 行 降序 排序 ,针对 类 型 文件 log 的 运行 结果 如 图 3. 19 所 示 。 


代码 段 3.45: 执行 histogram 聚 合 , 统 计 log_size 字 段 在 固定 间隔 不 同 区 段 中 的 数量 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -ad 'f 
"aggs": { 
"outer bucket": { 
"histogram": { 
"field": mog size", 
"interval": 500, 
"order": {"size stats.min": "asc"} 
}, 
naggs": { 
"size stats": { 
"stats": {"field": "1og size"} 


在 上 述 例子 中 可 以 为 中 间 结 果 取 名 ,只 需 使 用 keyed 参数 并 将 其 设置 为 true, 即 在 代码 
段 3.45 的 field 和 interval 语句 中 间 加 入 语句 "keyed": true” 并 在 末尾 加 逗号 。 这 样 ,前 端 
程序 可 以 通过 这 个 名 字 取 得 相应 的 统计 结果 并 进行 展示 ,该 聚合 的 查询 结果 如 图 3. 20 所 
示 。 请 注意 图 3. 19 和 图 3. 20 的 区 别 : 图 3. 19 的 buckets 是 以 数组 方式 给 出 的 ,而 图 3. 20 
的 buckets 则 是 以 键 值 对 的 形式 给 出 的 。 


5. date_histogram 聚合 

date_histogram 聚合 是 一 个 增强 型 的 专门 用 于 日 期 型 字段 统计 的 histogram 聚合 , 它 
允许 使 用 year、month、week、day、hour、minute 等 常量 作为 interval 属性 的 取 值 。 代 码 段 
3. 46 实现 了 以 下 聚合 操作 : 在 field 中 填写 一 个 日 期 类 型 的 字段 名 称 , 在 interval 中 填写 一 
个 步 长 值 , 通 过 format 参数 设置 时 间 格 式 ,结果 如 图 3. 21 所 示 。 
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“aggregations": + 
VW “outer_bucket": { 
VW "buckets": [ 
{ 


"key”: 0, 

"doc_countr: 998, 

vv "size_stats”: { 
“count": 998, 
“min": 51, 


75.97695390781564, 
"sum": 275425 
} 


"key™: 500, 
"doc_count”: 3, 
VW “size_stats": { 
"count : 3, 
min": 


了 “aggregations :{ 
¥ “outer_bucket": { 
VW “buckets": { 
可 "0.0":{ 
“key": 0, 
"doc_count": 998, 
vv" 


"avg": 275.97695390781564, 
"sum": 275425 


“max": 500, 
"avg": 500, 
"sum": 1500 


图 3.19 执行 嵌 套 聚合 的 结果 


图 3.20 为 中 间 结 果 取 名 的 histogram 聚合 


代码 段 3.46: 执行 date_histogram 聚 合 , 统 计 日 志 记录 在 不 同时 间 段 中 的 数量 
curl - H 'Content- Type: application/json' ~ XEOST localhost:9200/whale/log/ 


_search -d'{ 
"aggs": { 
"ogs_over time": { 
"date histogram": { 
"field": "timestarmp", 
"interval": "3h", 
: "dd/MM/yyyy HH:mm:ss" 


// 步 长 为 加 


// 根 据 Elasticsearch 中 的 实际 数据 设置 时 间 格 式 


也 可 以 在 其 中 添加 子 聚 合 ( 即 聚合 嵌 套 ) 来 实现 更 丰富 的 统计 功能 。 代 码 段 3. 47 实现 
了 以 3h 为 步 长 ,统计 在 每 小 时 各 个 状态 码 的 出 现 次 数 的 方法 ,运行 结果 如 图 3. 22 所 示 。 


代码 段 3.47: 执行 嵌 套 的 聚合 ,统计 状态 码 在 不 同时 间 段 中 的 数量 
curl -H 'Content- Type: application/json' — XPOST localhost:9200/whale/log/ 


_searh-d '{ 
vaggs™: { 
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"status code": { 
"temre": { 
"field": "status oode", 
"orger": {" tenmm": "asc"} 


// 步 长 为 加 
// 根 据 Elasticsearch 中 的 实际 数据 设置 时 间 格 式 


可 -50507603UGnSTT 
可 "logs_over_time":{ 
“buckets": [ 
{ 


"key_as_string": "25/05/2018 00:00:00", 
“key™: 1527206400000, 


as_string": "26/05/2018 00:00:00", 


"status_code : { 
"doc_count_error_upper_bound": 0, 
“sum_other_doc_count”: 0, 


“doc_count": 61 于 ee [ 
和》 
， "key": "200", 
{ “doc_count": 11 
"key_as_string": "28/05/2018 00:00:00"， } 
"key™: 1527465600000, ， 
"doc_count": 77 { 
} "key”: "302", 
， “doc_count": 2 
{ } 
"key_as_string": "31/05/2018 00:00:00", 
“key™: 1527724800000, { 
“doc_count": 73 “key": “404", 
} “doc_count": 1 
} 
{ ， 
“key_as_string": "03/06/2018 00:00:00", { 
"key": 1527984000000, “key": "503", 
"doc_count": 42 "doc_count": 2 
} 了 
] ] 
} } 
} } 
图 3.21 各 个 时 间 段 的 date_histogram 聚合 结果 3.22 每 小 时 状态 码 出 现 次 数 的 部 分 统计 结果 


6. filter 聚合 


filter 聚合 类 似 于 SQL 语句 中 的 where 子 句 的 作用 ,可 以 为 当前 文档 集合 定义 一 个 过 
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滤 条 件 来 缩小 现 有 的 数据 集 , 凡 满足 定义 的 过 滤 条 件 (filter) 的 文档 (document) 都 会 被 置信 
一 个 bucket 中 。 代 码 段 3. 48 展示 了 对 类 型 文件 log 所 有 size 字段 大 于 300 的 文档 进行 平 
均值 统计 (在 嵌 套 的 聚合 中 实现 ) 的 方法 ,相当 于 满足 指定 条 件 后 再 进行 的 统计 。 针 对 类 型 
文件 log 的 运行 结果 如 图 3. 23 所 示 。 


代码 段 3.48: 执行 带 有 过 滤 的 聚合 
curl - H 'Content- Type: application/json' - XPOST localhost:9200/whale/10g/ 
_search -d '{ 
"aggs": { 
"filter aggregation": { 
"filter": { 
"range": { 
"og size": {"gt": 300} // 规 定 日 志 信 息 长 度 大 于 300 
} 
] 
"aggs": { 
"avg log size": { 
"avg": {"field": "og size"} // 对 聚合 结果 求 平均 值 


“took”: 5, 
“timed_out”: false, 


http-/localhost:-9200/whale/log/ _search/ es 
POST " "successful": 5, 
{ ”skipped": 0, 
"aggs”: { “failed": 0 
“filter_ageregatian”: { By 
“filter”: { “hits: { 
“range”: { "total": 1084, 
“log_size”: { “max_score”: 1, 
} “gt”; 200 ~ "hits": [{ "_index": “whale”,”_type”: "log id 
让 
} VW "aggregations : { 
可 "filter_aggregation :{ 
aggs”: { "doc_count": 726, 
“avg_log_size”: { 可 “avg_log_size”: { 
“avg”: { "value": 351.76170798898073 
“field’: “log_size” 
} } 
! = 
} } 
} 
} 4 


图 3.23 filter 聚合 结果 
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3.4.3 ”pipeline 聚合 


pipeline 聚合 处 理 的 对 象 是 其 他 聚合 的 输出 (而 不 是 文档 ) ,这 种 聚合 方式 可 向 输出 树 
添加 信息 。 它 包含 很 多 形式 ,能 够 处 理 不 同 的 任务 ,这 些 形式 大 致 分 为 两 类 : 

(1) parent: 接收 其 父 聚 合 的 输出 ,并 计算 出 新 的 bucket 或 新 的 聚合 ,添加 到 现 有 的 
bucket 中 。 

(2) sibling: 接收 同 级 聚合 的 输出 ,并 计算 出 新 的 同 级 聚合 。 

pipeline 聚合 一 般 无 子 聚 合 ,但 是 它 可 以 在 buckets_path 中 引用 另 一 个 pipeline 聚合 ， 
这 样 pipeline 聚合 就 可 以 被 链接 在 一 起 。 例 如 ,可 以 将 两 个 计算 导数 的 pipeline 聚合 链接 
在 一 起 以 计算 二 阶 导数 。 

本 节 将 对 pipeline 聚合 中 的 min_bucket ,max_bucket sum_bucket ,avg_bucket stats_ 
bucket extended_stats_bucket 等 聚合 进行 介绍 。 


1. min_bucket、max_bucket、sum_bucket、avg_bucket 聚合 

min_bucket 和 max_bucket 聚合 是 上 文 提 到 的 聚合 的 同 级 聚合 ,这 样 的 聚合 以 同 级 聚 
合 中 特定 指标 的 最 小 值 来 识别 bucket 并 且 输 出 bucket 的 值 及 其 key。 这 里 的 指标 必须 为 
数字 类 型 , 同 级 聚合 必须 是 支持 多 个 bucket 的 聚合 。 代 码 段 3. 49 实现 了 对 每 小 时 内 日 志 
记录 长 度 最 小 值 的 计算 ,结果 如 图 3. 24 所 示 。 


代码 段 3.49: 计算 每 小 时 内 日 志 记录 长 度 最 小 值 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 


_search -d '{ 
"aggs": { 
Pas // 外 围 聚 合 ,统计 每 小 时 访问 量 
"aate histogram": { 


"field": "timestanmp", 
"interval": "hour" 
和 
"aggs": { // 子 聚合 ,统计 log size 总数 
"access": { 
"sum: {"field": mog size"} 
} 


/ 
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"min_ access per hour": { // 管 道 聚 合 ,链接 上 面 两 种 聚合 
"min bucket": { 


"buckets path": "acoess Per hour> acoess" 


一 一 一 ed 


“timed_out": false, 
http-Wlocalhost 9200/whalerlog/_searchy v edt ff 
5, 
POST v 
T 
“aggs”: { 
“access_per_hour”; { 
“date_histogran”: { 
“field”: “tinestamp”, 
“interval”, “hour” "max_score": 1, 
和 ~ "hits": [ { *_index*: “whale”,”_type”: "log”,”_id": "XatVz2MBqsxd| 
"aggs”: { y 
access :人 了 "aggregations":{ 
“am { VW “access_per_hour": { 
“field’; "log_size” 可 “buckets": [ 
} 
} "key_as_string": "25/05/2018 04:00:00", 
ft "key": 1527220800000, 
}, "doc_count": 3, 
“min_access_per_hour”: { YW “access":{ 
“nin_bucket”; { "valuer: 799 
“buckets_path”: “access_per_hour>access” 
】 ， 
{ 
提交 请 求 | 验证 JSON | 四 易 “key_as_string": "25/05/2018 05:00:00", 
和 页 水 re 
VY “access": { 


图 3.24 每 小 时 内 日 志 记 录 长 度 最 小 值 计 算 结果 


计算 每 小 时 内 日 志 记 录 长 度 最 大 值 时 ,只 需 将 代码 段 3. 49 中 的 min_bucket 改 为 max_ 
bucket 即 可 (可 以 与 聚合 的 名 字 一 并 修改 ) ,得 到 的 结果 如 图 3. 25 所 示 。 如 果 使 用 sum_ 
bucket 和 avg_bucket 聚合 ,也 采用 这 样 的 修改 和 执行 方法 ,这 里 不 再 一 一 缆 述 。 

2. stats_bucket extended_stats_bucket 聚合 

与 上 面 提 到 的 4 种 管道 聚合 类 似 , stats_bucket 聚合 能 够 返回 包含 计数 、 最 小 值 . 最 大 


值 , 平 均值 .和 的 多 值 计算 结果 。 代 码 段 3. 50 实现 了 每 小 时 内 日 志 记 录 长 度 的 多 值 计 算 , 结 
果 如 图 3. 26 所 示 。 
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http://localhost:9200/whale/log/_search/ 
POST 
: "XatVz2M| 
Y "aggregations : { 
1 V "access_per_hour:{ 
“buckets”: [ 
世 
四 "key_as_string": "25/05/2018 04:00:00", 
“min_access_per_hour”: { “key”: 1527220800000, 
“nax_bucket””: { "doc_count": 3, 
“buckets_path”; “access_per_hour>access” 机 "access": 
"value": 799 
区 } 
2 , 
{ 
“key_as_string": "25/05/2018 05:00:00°, 
“key™: 1527224400000, 
“doc_count”: 5, 
"valuer: 1320 


图 3.25 每 小 时 内 日 志 记 录 长 度 最 大 值 计算 结果 


代码 段 3.50: 计算 每 小 时 内 出 现 的 日 志 记录 长 度 计 数 . 最 小 值 . 最 大 值 .平均 值 . 和 
curl -H 'Content- Type: application/json' - XEOST localhost:9200/whale/log/ 


vacoess per hour": { // 外 围 聚 合 ,统计 每 小 时 访问 量 


"aggs": { // 子 聚合 ,统计 log size 总数 


"status access Per hour": { // 管 道 聚 合 ,链接 上 面 两 种 聚合 
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| http:/localhost:-9200/whale/log/_search/ 


3.26 每 小 时 内 日 志 记录 长 度 的 多 值 计 算 结果 


:whale"，_type": "log : XatVz2M| 


“1og_size” 


= “buckets™: [{ -key as_string": "25/05/2018 04:00:00 


上 , V “status_access_per_hour": { 
status_access_per_hour”; count : 247, 
“stats_bucket”; 


“buckets_path 


全 


“access_per_hour>access 


470, 
vg": 1221.1093117408907, 
“sum": 301614 


extended_stats_bucket 聚合 能 够 在 stats_bucket 聚合 计算 出 的 结果 上 添加 平方 和 , 方 
差 和 标准 差 等 指标 ,只 需 将 代码 段 3. 50 中 的 stats_bucket 改 为 extended_stats_bucket 即 可 
(可 以 与 聚合 的 名 字 一 并 修改 ) ,得 到 的 结果 如 图 3. 27 所 示 。 


| http://localhost:9200/whale/log/_search/ 


{ ": "whale”,”_type”: "log”,"_id": "xal 
小 
“field": "log_size” V “aggregations: { 
1 ~ “access_per_hour': { “buckets': [{ “key_as_string": 
] V “extended_status_access_per_hour”: { 


“extended_status_access_per_hour”: { 


70, 
“extended_stats_bucket”: { gr: 1221.1093117408907, 
“buckets_path”: “access_per_hour>access” "sum": 301614, 

} “sum_of_squares": 460198484, 
} 到 “std_deviation”: 609.9539374942245, 
v “std_deviation_bounds*: { 
“upper”: 2441.0171867293398, 
| 提交 请 求 | 验证 JSON | 器 夸 “lower”: 1.201436752441623 
了 


3.27 基于 extended_stats_bucket 聚合 的 每 小 时 内 日 志 记 录 长 度 的 多 值 计算 结果 
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3.4.4” matrix 聚合 


matrix 聚合 根据 从 查询 的 文档 字段 提取 的 值 对 多 个 字段 进行 操作 ,并 返回 矩阵 结果 。 
这 一 聚合 方式 与 前 面 提 到 的 metric 聚合 .bucket 聚合 等 均 不 同 , 它 不 支持 script 语句 。 本 
节 对 matrix 聚合 中 的 matrix_stats 聚合 进行 介绍 。 

matrix_stats 聚合 是 一 种 面向 数字 的 聚合 ,用 于 计算 一 组 文档 字段 中 的 以 下 统计 信息 : 

。 计数 : 计算 过 程 中 每 种 字段 的 样本 数量 。 

。 平均 值 : 每 个 字段 数据 的 平均 值 。 

。 方差 : 每 个 字段 样本 数据 偏离 平均 值 的 程度 。 

。 偏 度 : 每 个 字段 样本 数据 在 平均 值 附近 的 非 对 称 分 布 情况 的 量化 。 

。 峰 度 : 每 个 字段 样本 数据 分 布 的 形状 的 量化 。 

。 协 方差 : 描述 一 个 字段 数据 随 另 一 个 字段 数据 变化 程度 的 矩阵 。 

。 相关 性 : 描述 两 个 字段 数据 之 间 的 分 布 关系 ,其 协 方差 矩阵 取 值 为 [一 1,1] 。 

matrix 聚合 主要 用 于 计算 两 个 数值 型 字段 之 间 的 关系 。 代 码 段 3. 51 实现 了 对 日 志 记 
录 长 度 和 HTTP 状态 码 之 间 关 系 的 计算 ,结果 如 图 3. 28 所 示 。 


代码 段 3.51: 计算 日 志 记录 长 度 和 ETTP 状 态 码 之 间 的 关系 
curl -H 'Content— Type: application/json' - XEOST localhost:9200/whale/log/ 
_search -d'{ 
"aggs": { 
"matrixstats": { 
"matrix stats": { 
"fields": [ 
mog size", 


"status_code" 


“一 、 
(88 ， 大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 一 一 Eastic Sack 6: Elasticsearch、Logstash、Kibana、X-Pack、Beats (第 4 版 ) 


可 "aggregations  T 
可 "matrixstats : { 
"doc_count": 1271, 
vv "fields":[ 
{ 


“name": "status_code”, 
“count": 1271, 
“mean": 228.90952006294248, 
"variance": 6024.18944473011, 
"skewness": 2.643474511185891, 
“kurtosis": 8.689998822223084, 
本 "covariance": { 
“status_code": 6024.18944473011, 
"log_size": 388.6368889274364 


可 “correlation ": { 

“status_code": 1, 

“log_size": 0.03820842320486083 
小 


mw、 


“name": "log_size”, 
“count": 1271, 
“mean": 276.27694728560186, 
"variance": 17173.989381539737, 
"skewness": 0.025312169948124692, 
"kurtosis": 1.8053785042632087, 
¥ “covariance”: { 
“status_code": 388.6368889274364, 
"log_size": 17173.989381539737 


¥ “correlation": { 
“status_code": 0.03820842320486083, 
“log_size": 1 

} 


} 


图 3.28 使 用 matrix_stats 聚合 计算 log_size 和 status_code 之 间 的 关系 


35 局 倒 


前 面 给 出 了 全 文 检索 、 词 项 检索 等 数据 检索 方法 以 及 metric、bucket 等 聚合 方法 。 通 过 
这 些 方法 ,可 以 对 索引 库 中 的 数据 集 进行 检索 并 取得 相关 统计 数据 。 下 面 的 实例 是 对 手机 
产品 库 数 据 集 的 检索 与 聚合 ,这 些 数据 是 利用 专用 的 网 络 怜 虫 疏 取 到 的 ,然后 通过 一 定 的 方 
法 建立 索引 并 完成 人 库 ( 利 用 Java 采集 数据 存 和 人 Elasticsearch 的 过 程 详 见 4. 8 节 )。 手 机 


产品 库 数据 集 的 描述 如 下 : 
_index: yesky // 天 极 手机 产品 库 数据 的 索引 文件 
_type: cellphone // 天 极 手 机 产品 库 数 据 的 类 型 文件 
_id: XXX 1/ia 号 
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_version: X /| 版 本 号 

_soore: X // 排 序 分 值 

_source: { /数据 字段 描述 
url: XXXx // 网 址 ,如 http:/product.yesky.cam/product/877/871594/ 
FhoneName:X XX // 手 机 名 称 和 型 号 


laumnchpate: XX Xx // 上 市 日 期 
screenSize: XX X // 主 屏幕 尺寸 (in) 
resolution: XX X // 屏 幕 分 辨 率 
Processor: XX X // 处 理 器 名 称 


battery: XX X // 电 池 容 量 tah) 
ram: XXX // 运 行内 存 容量 (68) 
rm: XXX // 机 身 存储 容量 (GB) 


backCamera: X X X // 主 摄像 头像 素数 万 像素 ) 
frontCamera: XX X // 前 摄像 头像 素数 (万 像素 ) 


首先 在 Elasticsearch 中 建立 索引 。 在 head 的 Web 页 面 中 , 单 击 “复合 查询 ” 跳 转 至 相 
应 界面 。 在 左 侧 “ 查 询 ” 窗 口 第 一 行 填写 Elasticsearch 的 URL 地 址 , 即 http://localhost: 
9200; 在 第 二 行 填 写 要 创建 的 索引 名 称 , 即 yesky, 在 右 侧 选 择 PUT 方式 ;在 第 三 行 中 输入 
创建 索引 的 语句 ,如 代码 段 3. 52 所 示 。 单 击 “ 验 证 JSON” 按 钮 ,经 验证 无 误 后 即 可 提交 请 
求 。 设 置 映像 成 功 后 ,使 用 Java 程序 将 在 线 数据 采集 至 Elasticsearch 中 即 可 。 


代码 段 3.52: 为 yesky 索引 设置 映像 
curl - H 'Content- Type: application/json' - XEUT localhost:9200/whale/ mapping/ocellphone -d '{ 
// 注 意 这 里 使 用 PIT 方法 


"oellphone": { // 创 建 cellfhone 类 型 


1 90 


、 
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把 


"pricen: { 
"type": mong" 
区 
nlaunchpate": { 
"type": "date", 
"fommat": "yyyy 年 M 月 oq 日 " // 日 期 格式 应 根据 实际 数据 设置 


"screenSize": { 
"type": "keyword™" 

小 

"resolution": { 
"type": "keyword" 

和 

"processor": { 
"type": "keyword" 

小 

"battery": { 
"type": "long" 

), 

"ram": { 
"type": mongn 

), 

"ram": { 
"type": "long" 

}, 

"backCamera": { 
"type": "long" 

}, 

"frontCamera": { 
"type": "long" 


在 候 取 的 数据 中 ,可 以 利用 手机 的 品牌 或 型 号 对 手机 产品 数据 进行 全 文 检索 。 在 图 3. 29 
中 ,使 用 全 文 检索 中 的 match_phrase_prefix 对 手机 产品 信息 进行 查询 。 
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httpJlocalhost9200/yesky/cellphonel_searchy ] 
POST 


: “cellphone”, 
oyWMBHw-1FyFhB-m7", 
,893108, 


processor :“: 苹果 A11+M11 协 处 理 器 "， 
“phoneName": " 芋 果 iphone 8(54GB/ 全 网 通 )” 


:"; 苹果 AL11+M11 协 处 理 器 ”， 
: “苹果 iphone X(256GB/ 全 网 通 )” 


图 3.29 match_phrase_prefix 查询 


采用 词 项 检索 中 的 range 查询 ,对 上 市 时 间 在 特定 日 期 范围 内 的 手机 进行 检索 ,其 检索 
的 代码 和 结果 如 图 3. 30 所 示 。 


http-//localhost-9200/yesky/cellphone/_search/ 
POST 


{ 
“qery”: { 
“range”: { 
“lamchDate”, { 
“gte”;“2018 年 1 月 10 日 ， 


“lte”: “now” 


“type”: "cellphone”, 
“id": “aqsx0GMBqsxdtzO2uKO", 


EEEIETIEDIS 


图 3. 30 ”range 查询 的 实现 


人 92 ， 大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 一 一 Elastic Sack 6: Easticsearch、Logsush、Kibana、X-Pack、Heats (第 4 版 ) 


基于 Lucene 的 more_like_this 查询 可 以 检索 与 指定 内 容 相 似 的 文档 结果 集 。 这 种 查 
询 方法 也 可 以 用 来 实现 初步 的 信息 推荐 。 例 如 ,利用 more_like_this 方法 ,在 手机 产品 数据 
集中 的 phoneName 字段 检索 与 “vivo Z1(4GB/64GB/ 全 网 通 )”" 相 似 的 数据 集 ,其 代码 和 结 
果 如 图 3. 31 所 示 。 


httpWlocalhost9200yesky/cellphone/_searchy et 
POST " “successful": 5, 
1 “skipped": 0, 
aaerr: { “failed": 0 
“nore_like_this”: { }, 
“fields”: [ 可 "hits":{ 
“phoneNane” "total": 110, 
下 “max_score": 5.753839, 
?like“: “vive Z1(45B/646B/ 全 网 通 ) v “hits": [ 
“min_term freq’: 1 t 


上 
“_source”: “phoneName” 
} 


VW "_source™:{ 
“phoneName": "vivo Z1(4GB/64GB/ 全 网 通 )” 


“_index": “yesky", 
4 “type”: "cellphone”, 
= ee “id": "iasy0GMBqsxdtzO3eId", 
提交 请求 | 验证 JSON | 加 罗 关 “score”: 4.006243, 


source": { 
“phoneName":“vivo X9(NBA 定 制版 /64GB/ 全 网 通 )” 


图 3.31 more_like_this 查询 的 实现 


聚合 是 十 分 有 力 的 数据 统计 工具 ,能 够 使 用 户 对 数据 集 有 宏观 的 了 解 。 下 面 使 用 
metric 聚合 中 的 extended_stats 聚合 对 所 有 手机 产品 的 售 价 进行 统计 ,其 代码 和 聚合 结果 
图 3. 32 所 示 。 

可 使 用 bucket 聚合 中 的 histogram 聚合 为 柱状 图 的 生成 提供 元 数据 。 下面 针 对 不 同 
价位 的 手机 进行 1000 元 一 档 的 价位 统计 ,相关 代码 和 结果 如 图 3. 33 所 示 。 

下 面 使 用 matrix 聚合 中 的 matrix_stats 聚合 对 手机 产品 数据 集中 机 身 存 储 容量 (rom 
字段 ) 和 手机 售 价 (price 字段 ) 之 间 的 关系 进行 矩阵 计算 。 相 关 代码 可 参照 代码 段 3. 49, 结 
果 如 图 3. 34 所 示 。 
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{ 
http:/localhost:9200/yesky/cellphone/_search/ 
POST vv 
{ 
“aegs { 
“price_status”: { 
“extended_stats”: { 
“field”; “price” 
} 
# dex": "yesky","_type": "cellphone™,”_id": | 


“avg”: 3154.0132450331125, 
“sum": 476256, 
“sum_of_squares": 2051761516, 
“variance”: 3640025.0594272185, 
“std_deviation": 1907.8849701769807, 
Vv “std_deviation_bounds”: { 

4 “upper”: 6969.783185387074, 
"lower : -661.7566953208488 


"took": 1, 
"timed_out": false, 

http-Wlocalhost9200/yesky/celphone/_searchy vv -shards:{ 

[FEGsT 


六 "hits:{ 
”total": 191, 
“max_score": 1, 
~ "hits": [ { “_index*: “yesky”,” 


“key”: 2000, 
“doc_count”: 54 


"key": 3000, 
"doc_count": 36 


3. 33 histogram 聚合 的 实现 


A 
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"aggregations": T 
本 "matrixstats : { 
"doc_count": 191, 
vv “fields": [ 
{ 


“name”: “rom", 
“count": 191, 
“mean": 100.69633507853403, 
“variance”: 4951.307302287131, 
“skewness”: 1.9878585065895875, 
“kurtosis": 8.903779524498852, 
VW “covariance”: { 
rom”; 4951.307302287131, 
“price”: 85432.9826122899 


}, 
4 ie { 


pce 5784376726298753 
} 


“name": “price”, 
-count-: 191, 
"mean": 3337.994764397906, 
"variance": 4405732.405235602, 
"skewness": 1.213528066439307, 
“kurtosis": 5.4871879151394225, 
可 "covariance": { 
“rom": 85432.9826122899, 
“price”: 4405732.405235602 


}», 

本 “correlatior PF》 
“rom": 0. 5784376726298753, 
“price™: 1 


图 3.34 matrix_stats 聚合 的 实现 


36 扩展 知识 与 阅读 


有 关 Lucene 的 检索 可 参考 文献 (Michael, 2011)。 传 统 的 Web 服务 是 基于 RPC 
(Remote Procedure Call, 远程 过 程 调用 ) 风 格 的 ,其 实现 技术 主要 包含 SOAP、WS(Web 
Service) 标 准 栈 等 。RPC 风格 的 Web 服务 应 用 在 分 布 式 . 开 放 的 环境 中 会 带 来 一 些 问题 ， 
如 技术 架构 复杂 、 可 伸缩 性 差 等 。 而 RESTful 风格 的 Web 服务 可 以 解决 上 述 问 题 。 有 关 
RESTful 的 内 容 , 可 以 参阅 文献 ( 韩 陆 ,2014)。 文 献 (Rafal,2015) 对 Elasticsearch 的 搜索 有 
更 详细 的 说 明 , 除 此 之 外 ,还 对 扩展 结构 与 搜索 进行 了 说 明 。 文献 ( 余 晨 ,2012) 总 结 出 一 套 
使 用 正则 表达 式 解 题 的 办 法 ,并 通过 具体 的 例子 说 明 其 实际 应 用 ,文中 提 到 的 各 种 统计 是 可 
以 应 用 在 实际 的 信息 检索 系统 中 的 。 文 献 ( 罗 刚 ,2014) 总 结 了 搜索 引擎 相关 理论 与 实际 解 
决 方案 ,包括 搜索 提示 等 内 容 , 并 给 出 了 Java 实现 。 在 完成 搜索 提示 时 ,很 多 时 候 可 能 会 用 
到 Ajax 技术 。 文 献 (李刚 ,2014) 介 绍 了 jQuery 1.8、Ext JS 4.1、Prototype 1.7.1.DWR 这 
几 个 常用 的 Ajax 框架 的 用 法 ,针对 每 个 框架 提供 了 实用 方法 。 


第 3 章 信息 检索 与 聚合 95 ， 


37 ”本章 小 结 


本 章 对 基于 RESTful 的 Elasticsearch 信息 检索 方法 进行 了 说 明 , 分 别 从 基本 检索 、 结 
果 过 滤 、 复 合 查询 等 多 个 方面 进行 了 说 明 ,并 给 出 了 部 分 实际 运行 效果 。 另 外 ,基于 metric、 
bucket pipeline 和 matrix 机 制 的 聚合 统计 分 析 功 能 日 趋 完善 ,可 以 使 用 各 种 脚本 命令 ,也 
能 将 不 同 的 聚合 链接 在 一 起 工作 。 聚 合 的 统计 结果 又 可 以 由 可 视 化 工具 加 工 处 理 成 可 视 化 
的 结果 提供 给 用 户 ,可 进一步 提升 用 户 的 搜索 体验 。 


第 ,4 章 . Chapter 4 


Elasticsearch API 及 其 应 用 


All Elasticsearch operations are executed using a Client object. AIl 
operations are completely asynchronous in nature (either accepts a listener, or 
returns a future). Additionally, operations on a client may be accumulated and 
executed in Bulk. 


http://www. elastic. co 


前 面 已 经 对 Elasticsearch 的 索引 ,检索 ,统计 等 功能 进行 了 说 明 。 一 般 来 说 , 对 
Elasticsearch 中 的 信息 进行 检索 等 处 理 的 大 致 步骤 是 : 基于 analyzer 分 析 结 果 构 建 query、 
给 后 台 的 Elasticsearch 集群 发 送 query、 完 成 检索 并 返回 结果 集合 。 其 实 ,Elasticsearch 不 
仅 可 以 通过 前 述 的 RESTful 等 方式 进行 操作 ,通过 各 种 语言 的 API( 如 Java、 Python、 
Ruby、PHP 等 ) 也 可 以 做 所 有 的 操作 ,其 本 质 是 各 个 语言 的 客户 端 封装 底层 的 HTTP 请 求 ， 
调用 Elasticsearch 的 RESTful 接口 。 本 章 以 应 用 较为 广泛 的 Java 为 基础 ,重点 介绍 
Elasticsearch API Client 相关 功能 的 Java 实现 ,并 在 其 中 穿插 少量 Python 客户 端 实现 的 


41 日 asticsearch 节 筷 实例 化 


在 进行 Elasticsearch 的 客户 端 编程 时 ,首先 要 对 Elasticsearch 的 节点 进行 实例 化 。 在 
此 之 前 ,需要 在 Java 工程 中 添加 相关 的 Elasticsearch 依赖 (可 以 通过 Maven 添加 ,也 可 以 
手动 导入 已 有 的 JAR 包 ); 在 Python 环境 中 ,需要 通过 pip 包 管 理工 具 安装 相关 环境 。 


4.1.1 在 Java 中 初始 化 Elasticsearch 


Maven 是 基于 项 目 对 象 模型 .通过 描述 信息 来 管理 项 目的 项 目 管理 工具 。Maven 一 般 
包含 项 目 对 象 模型 一 组 标准 集合 、 项 目 生命 周期 .依赖 管理 系统 以 及 运行 逻辑 等 组 成 部 分 。 
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Maven 可 以 应 用 一 些 来 自 一 组 共享 的 (或 者 自 定义 的 ) 逻 辑 插件 。 使 用 Maven 时 ,可 以 用 一 
个 明确 定义 的 项 目 对 象 模型 来 描述 项 目 。Maven 的 定义 包括 发 布 项 目 信息 的 方式 以 及 一 
种 在 多 个 项 目 中 共享 JAR 的 方式 (百度 百科 ,2014a)。 


2 
作为 软件 项 目 管理 和 理解 工具 ,Maven 除了 具备 Ant( 一 个 将 软件 编译 、 测 试 、 
部 署 等 步骤 联系 在 一 起 的 工具 ) 的 功能 外 ,还 使 用 项 目 对 象 模型 对 软件 项 目 进行 管理 。 
它 内 置 了 更 多 的 隐 式 规则 ,使 得 构建 文件 更 加 简单 ,内 置 依赖 管理 和 repository 来 实现 
对 依赖 的 管理 和 统一 存储 ,并 内 置 软件 构建 的 生命 周期 。 


POM 是 Maven 对 一 个 单一 项 目的 描述 , 它 实 现 了 一 种 以 模型 来 描述 的 构建 方式 。 
图 4.1 显示 的 是 在 IDEA 开发 环境 中 基于 Maven 构建 的 工程 中 pom. xml 的 位 置 。 


号 demo ~/demo 
» Mm.idea 
v Msrc 
T mmain 
mm java 


» Mresources 

» Mmtest 

启 demo.iml 
pom.xml 


图 4.1 项 目 中 的 pom. xml 文 件 


可 以 在 Java 工程 中 的 pom. xml 文件 中 添加 和 Elasticsearch 相关 的 语句 ,以 便 将 
Elasticsearch 的 相关 JAR 包 文 件 引 入 到 相应 的 工程 中 。 代 码 段 4. 1 是 一 个 pom. xml 文件 
的 内 容 , 使 用 的 Elasticsearch 版 本 号 为 6.2.4。 


代码 段 4.1: Pam.xml 

< ?ml version="].0" encoding= "UIF- 8"? > 

< project xmlns= "http://naven.apache.org/EOM4.0.0" 
xmlns:xsi= "http://www.w3.0rg/2001/XMLSchema— instance" 
xsi:schemaLocationr "http://maven.apache.org/POM/4.0.0 http://maven. 
apache.org/xsd/tmaven— 4.0.0.xsd"> 

< modelVersion> 4.0.0< /modelVersion> 


< groupId> om.cy< /groupId> 
<artifactId> demp< /artifactId> 
< versicn> 1.0- SNAPSHOT< /version> 
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< name> dem Maven Webapp< /name> 

<url> http://maven.aliymn.car /url> 

< dependencies> 

< dependency> 

< groupId> org.elasticsearch.client< /groupId> 
< artifactId> transport< /artifactId> 

< version> 6.2.4< /version> 

< /dependency> 

< dependency> 

< groupId> org.apache. logging.10g4j< /groupId> 
<artifactId> log4j- api< /artifactId> 

< version> 2.6.2< /version> 

< /dependency> 

< dependency> 

< groupId> org.apache.logging.1og4j< /groupId> 
<artifactId> log4j- core< /artifactId> 

< version> 2.6.2< /version> 

< /dependency> 

< /dependencies> 

<build> 

< finalName> demp< /finalName> 

< /build> 

< /project> 


将 pom. xml 写 好 之 后 ,开发 平台 会 自动 下 载 这 些 依赖 JAR 包 。 


? 

如 果 发 现 Maven 在 导入 依赖 过 程 中 出 现 网 络 传输 、 程 序 错误 等 问题 ,可 以 党 
试 访问 pom. xml 指定 的 URL 并 从 中 直接 下 载 JAR 包 , 手 动 导 入 到 开发 平台 的 
library 中 。 


接 下 来 需要 初始 化 Elasticsearch 的 TransportClient ,这 是 一 种 轻 量 级 的 方法 , 它 通过 
Socket 与 Elasticsearch 集群 相连 ,是 基于 Netty 线程 池 的 方式 。 在 TransportAddress 的 构 
造 方法 内 需 填写 一 个 已 经 启动 的 Elasticsearch 节点 的 主机 地 址 及 端口 号 (默认 Transport 
端口 号 是 9300)。 可 通过 链 式 调用 addTransportAddress 方法 添加 很 多 类 似 节点 ,代码 段 
4.2 给 出 了 实现 方法 。 本 章 后 续 的 大 多 数 代码 段 中 有 基于 TransportAddress 的 构造 方法 
的 实现 。 
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代码 段 4.2: 基于 Transportclient 初始 化 客户 端 

//import 语 名 ,上 略 

/启动 一 个 客户 端 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAciress.getByName 
("localhost"), 9300)); 


client.close(); // 关 闭 客户 端 


在 Elasticsearch 安装 主 目录 下 的 config 文件 夹 下 的 elasticsearch. yml 中 提供 了 自 定 义 
集群 名 称 的 配置 项 cluster. name。 配 置 集群 名 称 后 ,应 在 Java 代码 中 指定 集群 名 称 , 在 创 
建 TransportClient 的 过 程 中 引入 包含 集群 名 称 的 Settings, 代 码 段 4. 3 给 出 了 实现 方法 。 
其 中 ,put() 方 法 中 的 第 一 个 参数 是 固定 的 ,表示 设置 的 是 集群 名 称 ; 第 二 个 参数 是 指定 的 集 
群 名 称 。 


代码 段 4.3: 通过 指定 集群 名 称 的 方法 来 构建 Transportclient 
//import 语 名 ,了 略 
Settings settings= Settings.builder () 

“Put ("cluster.name", "myClusterName") .build(); // 指 定 集群 名 称 
TransportClient client= new PreBuiltTransportClient (settings); 
//todp: 添加 Transport 地 址 ,然后 可 以 用 客户 端 做 其 他 事情 


: 

2 中 一 旦 在 elasticsearch. yml 中 配置 了 自 定义 的 集群 名 称 ,在 Java 代码 中 就 必须 
通过 Settings 类 的 put() 方 法 指定 集群 名 称 ,否则 程序 将 无 法 找到 符合 配置 的 
Elasticsearch 节点 。 


还 可 通过 client. transport. sniff 方法 开启 嗅 探 模式 来 自动 加 入 集群 ,如 代码 段 4. 4 
所 示 。 


代码 段 4.4: 开启 嗅 探 模式 

//import 语句 , 略 

Settings settings= Settings.builder() 
-Eut("client.transport.sniff"， true) .build(); 

/启动 一 个 客户 端 

TransportClient client— new PreBuiltTransportClient (settings); 

client.close(); // 闫 闭 客 户 端 
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4.1.2 在 Python 中 初始 化 Elasticsearch 

在 Python 环境 中 可 利用 pip( 一 个 通用 的 Python 包 管 理工 具 , 提 供 了 对 Python 包 的 
查找 .下 载 、. 安 装 、 印 载 的 功能 ) 进 行 安装 。 首 先 需 要 确认 是 否 安装 过 pip 以 及 pip 的 版 本 ， 
可 在 命令 行 窗口 输入 以 下 命令 检查 pip 的 版 本 : 


Pip show pip 


如 图 4. 2 所 示 ,命令 行 输出 关于 pip 的 信息 ,表示 pip 可 正常 运行 且 版 本 为 10.0. 1。 


14902>pip show pip 


图 4.2 pip 及 其 版 本 信息 


pip 的 一 个 特点 是 可 以 通过 命令 和 
行 查 看 。 这 里 所 安装 


见 对 第 三 方 包 的 管理 ,可 使 用 pip -h 对 所 有 命令 进 
装 的 Elasticsearch 是 官方 提供 的 low-level 客户 端 ,为 了 保证 有 更 好 的 扩 
展 性 ,使 用 Python 语言 实现 了 所 有 关于 Elasticsearch 的 操作 , 它 的 操作 方式 更 加 接近 于 
Elasticsearch JSON DSL 的 查询 方式 。 使 用 pip 安装 Elasticsearch 的 命令 如 下 : 


Pip install elasticsearch 


上 面 的 命令 上 装 Python 6. 2. x 的 客户 端 。 如 果 系 
需要 指定 安装 客户 端的 版 本 ,其 命令 如 下 : 


”lasticsearch 5.0, 则 


pip install elasticsearch==5.0 


安装 完成 后 ,可 使 用 pip show elasticsearch 命令 查看 已 安装 的 Elasticsearch 客户 端 


如 果 发 现 pip 在 安装 过 程 中 因为 网 络 原因 下 载 缓慢 或 下 载 失败 ,可 切换 国内 
镜像 源 加 速 访问 。 下 面 是 常用 的 国内 镜像 源 以 及 pip 命令 : 


pip install - i httpe://pypi.buna.tsinghua.eda.cn/simple elasticsearch // 清 华 镜像 
pip install - i http://pbypi.douban.com/simple/elasticsearch // 豆 辩 镜 像 
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接 下 来 需要 在 Python 中 初始 化 Elasticsearch 客户 端 ,其 实现 方式 是 : 将 Python 中 的 
数据 类 型 转换 为 JSON ,并 基于 urlib3( 功 能 强大 的 用 于 HTTP 客户 端 请 求 的 Python 库 ) 对 
集群 进行 请 求 。 如 代码 段 4. 5 所 示 ,在 创建 客户 端 时 ,可 以 不 指定 任何 参数 ,使 用 默认 配置 
通过 localhost:9200 连接 集群 。 


代码 段 4.5: 使 用 默认 配置 创建 集群 
fram elasticsearch import Flasticseardh 
es _client= Elasticsearch() / 避 认 连接 localhost:9200 


也 可 以 通过 传人 hosts 参数 进行 连接 。 传 人 的 参数 类 型 有 两 种 : 一 种 是 包含 IP 地 址 和 
端口 的 字符 串 类 型 ; 另 一 种 是 列表 类 型 ,列表 内 的 元 素 可 以 是 IP 地 址 和 端口 的 字符 串 ,也 可 
以 是 包含 IP 地 址 和 端口 的 字典 。 代 码 段 4. 6 演示 了 这 3 种 传人 参数 的 方式 。 


代码 段 4.6: 指定 host 连接 
fram elasticsearch import Elasticsearch 
es_client= Elasticsearch (hosts= "localhost:9200") // 使 用 包含 下 地 址 和 端口 的 字符 串 形式 
es_client= Elasticsearch (hosts= ["localhost:9200"]) 

// 使 用 列表 元 素 为 包含 王 地 址 和 端口 的 字符 串 形式 
es_client= Elasticsearch (hosts= [{"host": "localhost", "port": 9200}]) 
// 使 用 列表 元 素 为 包含 下 地 址 和 端口 的 字典 形式 ,注意 : 这 里 的 端口 号 应 为 整数 


同样 ,Python 也 可 以 开启 嗅 探 模 式 自动 加 入 集群 ,需要 在 Elasticsearch 客户 端 实例 化 
时 添加 3 个 参数 。 代 码 段 4.7 开启 嗅 探 模式 。 


代码 段 4.7: 开启 嗅 探 模式 
fram elasticsearch jimport Elasticsearch 


es_client= 本 asticsearch (sniff on _start= Truey // 开 启 嗅 探 模式 
Sniff on connection fail= True, // 嗅 探 失败 重 连 
sniff timeout= 60) // 嗅 探 超 时 时 间 

42 泰 引 数据 


本 节 介 绍 创建 索引 的 方法 。 先 从 准备 JSON 数据 开始 。 
4.2.1 准备 JSON 数据 
JSON 数据 的 产生 有 多 种 方法 。 
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方法 1: 产生 符合 JSON 规范 的 字符 串 , 并 将 其 存 于 String 或 byte[] 类 型 的 变量 中 。 


代码 段 4. 8 就 是 一 个 通过 手工 方法 构建 JSON 字符 串 的 示例 。 


代码 段 4.8: 通过 手工 方法 构建 SN 字符 串 
String json= nt ApameNnsNmTanNm mi NtimeNnzNn2016-12_ 25\", 4 moontentNmsNmhappyNm 站 玫 


方法 2: 使 用 第 三 方 的 JSON 工具 库 ( 如 Gson ,Jackson 等 ) 来 序列 化 JavaBean 。 


象 序列 化 为 JSON 字符 串 , 或 将 JSON 字符 串 反 序列 化 为 Java 对 象 。 


?2 
Gson 是 Google 公司 发 布 的 一 个 开放 源 代码 的 Java 库 , 主 要 用 途 是 将 Java 对 


在 Gson 实现 过 程 中 ,首先 在 pom. xml 中 添加 对 Gson 的 依赖 , 见 代 码 段 4. 9。 


代码 段 4.9: 在 Pam.xml 中 添加 对 Gescn 的 依赖 
< dependency> 
< groupId> com.google.code.gscn< /groupId> 
< artifactId> gson< /artifactId> 
< version> 2.8.5< /version> 
< /dependency> 


Gson(). toJson() 语 句 : 


添加 依赖 完成 之 后 ,对 需要 处 理 的 数据 进行 JavaBean 序列 化 , 见 代 码 段 4. 10 的 new 


代码 段 4.10: 序列 化 

//import 语句, 上 略 

Map< String, Object> map= new HashMap< > (); 

map.put ("name", "hebust.") ; 

map.put ("age", 23); 

map.Put("content" "hello world"); 

map.put ("haa", new String[]{"big data", "mining", "information retrieval"}); 

String s= new Gson() .toJson (map); // 对 mep 中 的 数据 进行 JavaBean 序 列 化 
System.out.println(s)7 


是 使 
会 被 


方法 3: 使 用 Elasticsearch 自 带 的 工具 XContentFactory. jsonBuilder() 。 代 码 段 4. 11 
用 这 个 JSON 工具 类 进行 的 操作 ,运行 结果 如 图 4. 3 的 下 部 所 示 。 所 有 格式 的 数据 都 
转换 为 byte[] 格 式 。 如 果 待 处 理 的 数据 正 是 这 样 的 格式 ,就 可 以 直接 使 用 它 而 不 用 再 


转换 。 
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代码 段 4.11: 基于 XContentFactory.jscnBuilder() 的 方法 
//import 语 句 , 略 
XContentBui lder builder= jscnBuilder () .startabject() 
.field ("name", "Tam") 
.field ("time", new Date()) 
.field ("content", "happy") 
-endcbject (07 
System.out.println (ouilder.string())7 // 显 示 生 成 的 JSON 字 符 串 


XContentBUTUqer builder= UTC 
try { 
builder = jsonBuilder().startObject() 
-field("n: om") 


3 
4 

5 

6 

7 

8 -field("content", 
9 .endobject(); 

0 System. out.println(builder.string()); 
1 } catch (IOException e) { 

2 e.printStackTrace(); 

3 
4 
5 


个 /usr/jdk1.8.0 112/bin/java ... 
{"name": "Tom", "time":"2816-12-29T13:23:85.4192", "content":"happy"} 


Process finished with exit code 9 


下 
国 星 | 


图 4.3 JSON 数据 准备 


有 关 jsonBuilder() 的 使 用 ,在 4.3. 3 节 亦 有 体现 。 


a 
区 jp Python 中 有 自 带 的 JSON 工具 包 , 可 以 很 方便 地 将 Python 中 的 字典 、 列 表 等 
数据 类 型 进行 序列 化 和 反 序 列 化 。 下 面 是 将 Python 的 数据 序列 化 为 JSON 字符 串 的 
json_str= {"name": "Tom", "time":"2016- 12- 25", "oontent.":"happy"} 
Print 0son.duamps (json_str)) 


4.2.2 为 JSON 数据 生成 索引 


当 为 JSON 格式 的 文档 生成 索引 时 ,可 采用 在 IndexResponse 中 包含 Elasticsearch 索 
引信 息 的 方法 。 
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1 
ej 常用 的 准备 索引 JSON 数据 的 API 如 下 ， 
。 prepareIndex() 。 


。 preparelndex(String index, String type) 。 


。 preparelndex(String index, String type, String id) 。 


代码 段 4. 12. 1 给 出 生成 JSON 数据 索引 的 部 分 代码 ,执行 这 段 代码 之 前 需要 初始 化 
TransportClient ,其 中 ,要 生成 索引 的 内 容 是 代码 段 4. 11 中 提 到 的 通过 XContentBuilder 生 
成 的 JSON 数据 ,myweibo3 是 在 Elasticsearch 中 已 经 建立 好 的 索引 文件 。 


代码 段 4.12.1: 为 USON 数 据 生成 索引 
//import 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
-addTransportAddress (new TransportAddress 
(InetAddress .getByName ("localhost"), 9300)); 
IndexResponse response= client .prepareIndex ("myweibo3", " doc") 
.SetSource (jsonBui lder () .startCbject () 
-field ("user", "cy") 
.field("post date", "2018- 01- 01T18:00:00") 
field ("mymessage", "Java client test") 


:endcbject () 
) .get (0)7 
// 下 面 的 语句 是 在 控制 台 输 出 的 索引 信息 
String _indexe= response.getIndex(); /得 到 索引 文件 名 称 
String_typer response.getIyFe0) // 得 到 类 型 文件 名 称 
String _id- response.getId(); // 得 到 文档 记号 


long _versionr response.getVersion(); /| 版 本 号 。 若 首次 为 该 文档 生成 索引 , 则 为 1 
System.out .printIn( indext \t"+ typet \t"™+ idt "\t"+ versiont "\n"); 
client.close(); // 关 闭 客户 端 


针对 代码 段 4. 12. 1 的 运行 结果 如 图 4.4 所 示 , 其 中 由 代码 段 4. 12. 1 输出 的 结果 在 
图 4.4 的 下 部 。 相 应 地 ,Elasticsearch 产生 的 索引 数据 如 图 4. 5 所 示 。 

代码 段 4. 12. 2 提供 了 为 JSON 数据 生成 索引 的 Python 实现 方式 ,该 方式 简单 易 懂 , 且 
大 多 数 Python 客户 端的 实现 方式 也 只 是 在 body 查询 语句 上 有 所 区 别 , 查 询 语句 也 类 似 于 
第 3 章 中 的 内 容 , 因 而 后 续 Python 客户 端 所 实现 的 内 容 以 本 段 代码 为 基础 模板 , 当 与 Java 
的 实现 方式 有 较 大 差异 时 , 则 会 进行 说 明 。 其 他 实现 方式 可 参考 第 3 章 的 相关 内 容 。 
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E29 IndexResponse response = client.prepareIndex( index "myweibo3", type ”doc") 
32 .setSource(JsonBuilder() .startObject() 
33 ,fieLd( name "user"， value "cy") 
34 .field( name “post date", value “2918-91-91T18: 09: 99") 
35 .fieLd( name "mymessage"， Value "Java client test") 
36 .endObject() 
37 ) .get(); 
38 // 下 面 的 语句 是 在 控制 台 和 出 得 到 的 案 引 信息 
39 String _index = response.getIndex(); // 得 到 index 名称 
49 String _type = response.getType(); V 得 到 type 和 名称 
条 String _id = response.getId(); // 得 到 document Id 
42 long _version = response.getVersion(); // 版 本 号 ， 如 是 首次 案 引 谈 文档 , 则 此 值 为 1 
43 System. out.println(_index + “\t" + type + "\t" + id + "\t" + _version + "\m"); 
44 client.closel(); 
Run 辐 ClientTest 
Bp [+ /usr/idki.s.0 112/bin/java ... 
myveibo3 doc DS VxGMBmDMkTsldbzzl 1 
国 |#+ 
Mi | Process finished vith exit code 9 


图 4.4 代码 段 4.12. 1 输出 的 结果 


图 4.5 Elasticsearch 产生 的 索引 数据 


代码 段 4.12.2: 在 Python 下 为 usoN 数 据 生成 索引 
fram elasticsearch import Elasticsearch 
es_client= Elasticsearch () // 创 建 客户 端 , 若 不 指定 参数 , 则 默认 为 localhost:9200 
body={ // 创 建 查询 主体 ,设置 查询 语句 
"qhnery": { 


} 
} 
res- es_cliient.search (index= "myweibo3", dbc type= " doc", body-=body) ”// 通 过 search 语 句 进行 检索 
for hit in res["hits'] ['hits']: // 输 出 索引 数据 


print hit[' souroe']) 
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43 对 泰 引 文件 的 可 作 
4.3.1 获取 索引 中 的 文档 数据 


前 面 已 经 介绍 了 如 何在 Elasticsearch 中 获取 待 处 理 的 文档 数据 。 其 实 , 在 Get API 的 
帮助 下 ,也 可 以 在 Java 客户 端 获 取 文 档 数据 。 代 码 段 4. 13 给 出 了 方法 ,请 其 中 的 
prepareGet (String index，String type，String id) 方 法 ,其 中 的 3 个 参数 分 别 是 
Elasticsearch 中 的 某 个 索引 文件 名 、 某 个 类 型 文件 名 、 文 档 的 id 号 (为 便于 说 明 , 代 码 中 直 
接 给 出 了 某 个 文档 的 id 号 ) 


代码 段 4.13: 获取 文档 数据 

/inmport 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new Transportadtress (InetAciress.getByName 
("localhost"), 9300)); 

GetResponse response= client .prepareGet ("information", "_doc", "1") .get(); 

Map< String, Object> hit= response.getSource (); 

String _title= hit.get ("Title") .tostring(); // 显 示 针 对 该 条 的 数据 细节 

String _author= hit.get ("author") .toString ()7 

String _abstract= hit.get("abstract") .toString(); 

String _ keywords= hit.get ("keywords") .toString () 7 

System.out.pPrintln(_ titlet \n"+_authort "\n"+_abstract+ "\n"+ _keywords); 

client.close(); 


图 4.6 和 图 4.7 给 出 了 实际 运行 结果 ,其 中 ,图 4.6 是 索引 文件 information 中 某 个 文 


档 的 内 容 , 图 4.7 是 程序 运行 结 


图 4.6 索引 文件 information 中 某 个 文档 的 内 容 
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GetResponse response = client.prepareGet( mdex “information", tpe doc， 让 "1j get()) 
Map<String, Object> hit = response.getSource(); 

String title = hit.get("title") .toString(); // 旺 示 针 对 恋 闲 的 数据 细节 

String _author = hit.get("author") .toString(); 

String _abstract = hit.get("abstract") .toString(); 

String Jkeyvords = hit.get("keywords") .toString(); 

System. out.println(_title + “\nm" + author + “\n" + _abstract + "\n" + _keywords); 
client.closel(); 


Run (P) ClientTest 

/usr/jdk1. 8.0 112/bin/java ... 

深度 学 习 

Ian Goodfellov, Yoshua Bengio, Aaron Courville 
《深度 学 习 》 由 全 球 知名 的 三 位 专家 Ian Goodfellow. Yoshua Bengio 和 Aaron Courville 挫 写 , 是 深度 学 习 领 域 英 基 性 的 经 典章 
深度 学 习 自然 语言 处 理 计算 机 视觉 推荐 系统 


Process finished with exit code 9 


4.7 获取 的 文档 数据 


Elasticsearch 可 以 同时 获取 多 个 文档 的 数据 ,使 用 MultiGet API 可 以 实现 在 不 同 索 引 
文件 中 获取 多 个 id 号 的 内 容 。 代 码 段 4. 14 实现 了 获取 两 个 索引 文件 中 的 多 个 文档 数据 的 
功能 ,结果 如 图 4.8 所 示 。 


代码 段 4.14: 获取 多 个 索引 文件 中 的 文档 数据 

//import 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

MultiGetResponse multiGetIterResponses=- client .prepareMultiGet () 
add ("myweibo3", " doc" "3") 
// 指 定 多 个 id 号 
.add("nyweibo3"，"” doc"，"lmBgdGMB27TN6d9FRnKf8"，"DS_VxGMErDMkTsldbzzl) 
add ("infommation", " doc" "3") 
:get (0); 

for MiltiGetItemResponse iterResponse : multiGetIterResponses) { 
GetResponse responser iterResponse.getResponse ()7 
if (response.isExists()) { 

System.cut.Println (response.getSouroeAsString()); // 输 出 结果 


client.close(); 
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35 MultiGetResponse multiGetItemResponses = client.prepareMultiGet() 

36 .add( mdex “myveibo3"， type ”doc"， 过 “3" 

7 7/ 指定 多 个 1d 委 

38 .add( ndex "myweibo3", type ”doc"， -二 “lm8gdGHB27N6d9FhAnkf8"， 
39 “DS_ Vx6MBmDHkTsldbzzl") 

49 .add( ndex “information", type ”doc"， 让 “3) 

1 -get(); 

42 for (MultiGetItemResponse itemResponse : multiGetItemResponses) { 

43 GetResponse response = itemResponse.getResponsel(); 

44 if (response.isExists()) { 

45 9 System.out.printLn( response.getSourceAsString()); // 钼 出 后 黑 
46 } 

4 } 

Run 局 ClientTest 


/usr/jdk1.8.0 112/bin/java ... 
plo 


画 | 了 “user":"Liking", 
"post_date":"2018-01-01T14:00:00", 
| “nynessage":"Hello Tom" 


} 
回国 + 
让 | 导 
傅 ) 

{"user":"cy", "post_date":"2018-01-01T18:00:00", "nynessage":"Java client test"} 
3 {"title": "大 数据 搜索 与 控 所 及 可 视 化 管理 方案 《第 3 版 )", "author":" 商 毅 "，"abst ract": "本 书 着 重 - 
x Process finished with exit code 0 


图 4.8 获取 多 个 文档 的 数据 


! 


区 jp 常用 的 获取 索引 文件 中 的 文档 数据 的 API 如 下 : 


get(GetRequest request) get(GetRequest request, ActionListener— GetResponse> 
listener): 根据 GetRequest 提供 的 index、type 和 id 获取 文档 数据 。 
prepareGet() .prepareGet(String index, String type, String id): 准备 获取 ,但 
不 执行 获取 操作 。 

multiGet ( MultiGetRequest request)、 multiGet ( MultiGetRequest request, 
ActionListener 二 MultiGetResponselistener); 批量 获取 文档 数据 。 
prepareMultiGet(): 准备 批量 获取 ,但 不 执行 获取 操作 。 


4 


区 如果 使 用 Python 从 多 个 索引 文件 中 获取 文档 数据 ,可 在 es_client 检索 时 添 
加 index 参数 ,指定 需要 获取 哪些 索引 文件 中 的 数据 : 


es_client.search (index= [myweibo3, informatio],body= query) 


4.3.2 


删除 索引 文件 中 的 文档 数据 


和 获取 文档 信息 API 类 似 , 也 可 以 在 Java 客户 端 删除 索引 文件 中 的 文档 数据 ,可 以 通 


一、 
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过 prepareDelete( ) 等 方法 实现 ,如 代码 段 4. 15 所 示 。prepareDelete() 方 法 的 第 三 个 参数 是 
拟 删除 文档 的 id 号 ,其 前 面 两 个 参数 则 分 别 是 索引 文件 名 称 、 统 一 的 类 型 文件 名 称 。 


代码 段 4.15: 删除 文档 信息 

/Vinmport 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
-addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

DeleteResponse responser client .prepareDslete ("informatian", " doc"， "3") .get(); 

int _status= response.status() .getstatus(); // 获 取 删 除 操作 的 状态 码 

String index= response.getIngdex (); 

String _type= response.getType(); 

String _id= response.getId(); 

System.out .printIn( statust t+ indext \t"+ typet \t" id); 

client.close(); 

System.out.printin(" 指 定 记号 的 记录 已 经 被 删除 "); 


! 
2 常用 的 删除 索引 文件 中 的 文档 教 据 的 API 如 下 ; 
。 prepareDelete() .prepareDelete(String index, String type, String id): 准备 删 
除 , 但 不 执行 删除 操作 。 
» delete(DeleteRequest request) delete(DeleteRequest request, ActionListener 
所 DeleteResponse 二 listener): 根据 DeleteRequest 提供 的 index、type 和 id 从 
索引 文件 中 删除 文档 数据 。 


加 在 Python 中 可 使 用 delete 函数 进行 索引 文件 中 的 文档 数据 的 删除 操作 ,相关 
实现 方式 如 下 : 


es_client.delete (index—= "information", doc type=" doc", id 3) 


4.3.3 更 新 索引 文件 中 的 文档 数据 


和 获取 文档 数据 的 方法 类 似 , 也 可 以 在 Java 客户 端 更 新 索引 文件 中 的 文档 数据 。 代 码 
段 4. 16 给 出 了 实现 方法 ,通过 Client 对 象 的 update() 方 法 实现 。 注 意 ,这 里 对 指定 id 号 的 
多 个 字段 信息 进行 了 更 新 操作 。 
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代码 段 4.16: 更 新 文档 数据 ,注意 jsonBuilder() 的 用 法 

//import 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAcddiress (new TransportAddress (InetAddress.getByName 
("localhost"), 9300)); 

UpdateRequest. updateRequest= new UpdateRequest (); 


UpdateRequest .index ("myweibo3") ; // 指 定 索 引文 件 

UEdateRequest.type("_ dpcm); // 指 定 类 型 文件 

UpdateRequest.id("DS_ VxGMEMIMkTs1do221"); /指定 诅 号 

// 到 此 为 止 ,已 定位 到 待 更 新 的 记录 上 。 下 面 是 对 该 记录 中 的 部 分 字段 值 进行 更 新 

UpdateRequest.doc (jsonBuilder() // 使 用 jscnBuilger() 方 法 
“StartCbject () 


field ("post_date", "2017- 01- 01T09:00:00") 

.field ("mymessage", "Java client update test") 

-endobject ()); 
client .update (updateRequest) .get (); // 通 过 client 对 象 的 update() 方 法 实现 
client.close(); 


! 
[ej 常用 的 更 新 索引 文件 中 的 文档 数据 的 API 如 下 ， 

。 update(UpdateRequest request) : 基于 脚本 更 新 文档 并 返回 更 新 后 的 结果 。 
update(UpdateRequest request, ActionListener<=UpdateResponse> listener) : 
借助 于 监听 器 完成 数据 的 更 新 。 
prepareUpdate() .prepareUpdate( String index, String type, String id) : 准备 更 
新 ,但 不 执行 更 新 操作 。 


‘ 
在 Python 中 可 使 用 update() 函 数 进行 数 据 的 更 新 操作 ,实现 方式 如 下 ,其 中 
body 为 要 更 新 的 内 容 。 


es_client.update (index= "myweibo3", dbc type= " doc", id 3,body=body) 


4.3.4 对 索引 文件 中 的 文档 进行 批量 操作 


可 通过 bulk API 对 指定 的 文档 进行 批量 操作 ,示例 方法 如 代码 段 4. 17. 1 所 示 ,这 里 通 
过 bulk 操作 同时 进行 了 两 个 向 索引 文件 中 增加 数据 的 操作 (prepareIndex) 和 一 个 更 新 操作 
(prepareUpdate) 。 
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代码 段 4.17.1: 对 文档 的 批量 操作 
//inmport 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (Inetmddress.getBYyName 
("localhost"), 9300)); 
BulkRequestBuilder bulkRequest— client .prepareBulk (); 
bulkRequest .add (client .prepareIndex ("myweibo3", "_doc", "1") 
.setSource (jsonBuilder () 
.startCbject () 
.field ("user", "cy") 
.field ("post_date", "2018- 01- 01TO9:00:00") 
.field ("mymessage", "bulk index 1") 
-endobject () 


); 
bulkRequest .add (client .prepareIndex ("myweibo3", " doc", "2") 
.setSource (jsonBuilder() 
.startObject () 
.field("user", "cy") 
.field ("post_ date", "2018- 01- 01T09:00:00") 
.field ("mymessage", "bulk index 2") 
.endcbject () 


a 
ulkRecpest .acd (client. .prepareUpdate ("myweibo3", " dpc", "DS VAMArIMTSldbez1") 
.setDoc (jsonBuilder () 
.startObject () 
.field ("mymessage", "Java client bulk test") 
-endcbject () 


) 7 

BulkResponse bulkResponse— bulkRequest .get (); 
if (oulkResponse.hasFailures()) { 

// 可 在 这 里 对 失败 请 求 进行 处 理 , 略 

和 

client.close(); 


~ 一、 
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2 
常用 的 对 索引 文件 中 的 文档 进行 批量 操作 的 API 如 下 ， 
。 bulk (BulkRequest request) 、bulk (BulkRequest request， ActionListener 
一 BulkResponse> listener) : 批量 操作 。 
。 prepareBulk() : 准备 进行 批量 操作 ,但 不 执行 。 


在 Python 中 对 文档 进行 批量 操作 ,需要 首先 导入 helpers, 然 后 用 多 个 actions 将 数据 
保存 至 列表 中 ,最 后 使 用 helpers. bulk 进行 批量 操作 。 代 码 段 4. 17. 2 实现 了 插入 和 更 新 
操作 。 


代码 段 4.17.2: 对 文档 的 批量 操作 
fram elasticsearch jmport Elasticsearch 
jmport elasticsearch.helpers 
actions= [] 
es= Elasticsearch ("localhost:9200") 
acticans.append ({'_qp type': ‘index', ' index': "weibo3g， type': " doo, ' id': 1', 
'_souroe': { 
"user': ‘cy', 
"post_date": "2018- 01- 01T09:00:00", 
"mymessage": "bulk index 1" 


]) 
acticns.append({'_qp type': ‘index',' index': "weibo3 ' type': " dbo", id': '2v 
'_souroe': { 
"user': "cy 
"post_daten: "2018- 01- 01TO9:00:00", 
"mymessage": "bulk index 2" 
} 
Dactions.append({ '_op_type': 'wpdate',' index': "myweibo3", ' type': "_doc",' id': 'DS 
VsGMBrrMkreldbzzl' ‘dpc': { 
"mymessage": "Java client bulk test" 
} 
elasticsearch.helpers.bulk (es, actions) // 进 行 批量 操作 


44 ”信息 检索 


信息 检索 是 Elasticsearch 的 主要 功能 。Elasticsearch 提供 了 多 种 方式 供 前 端 实 现 信息 
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4.4.1 概述 


Elasticsearch 提供 了 强大 的 全 文 检索 功能 。 借 助 相 应 的 API, 可 以 使 用 
SearchSourceBuilder 构造 一 个 Elasticsearch 检索 请 求 。 一 般 地 ,首先 要 在 项 目 中 引入 相应 
的 类 文件 ,例如 : 

jmport org.elasticsearch.action.search.SearchResponsey 

import org.elasticsearch.action.search.SearchType; 

import org.elasticsearch.index.query.FilterBuilders. * ; 

jimport org.elasticsearch.index.query.QueryBuilders.* ; 

之 后 ,在 Elasticsearch Client 实例 化 对 象 的 prepareSearch() 方 法 中 设置 索引 文件 的 名 
称 ,在 setTypes() 方 法 中 设置 统一 的 类 型 文件 ,在 setQuery() 方 法 中 设置 查询 ,而 这 个 查询 
可 使 用 Elasticsearch 自 带 的 QueryBuilders() 方 法 来 构建 。 当 然 ,也 可 在 setPostFilter() 
方法 中 设置 在 搜索 前 需要 执行 的 过 滤 操 作 ( 可 使 用 FilterBuilders( ) 方 法 构建 过 滤器 ) ,如 代 
码 段 4. 18 所 示 。 其 中 ,client. prepareSearch 用 来 创建 一 个 SearchRequestBuilder, client. 
prepareSearch() 方 法 的 参数 是 一 个 或 多 个 索引 文件 名 称 ,这 里 的 setSearchType() 中 的 参数 
是 一 个 枚 举 类 型 的 元 素 , 包 括 两 个 可 选择 的 值 : 

(1) QUERY_THEN_FETCH: 先 向 所 有 的 分 片 发 出 请 求 ,各 分 片 只 返回 排序 和 排名 
相关 的 信息 (不 包括 文档 ) ,然后 按照 各 分 片 返回 的 分 数 进行 排序 并 取 前 size 个 文档 ,之 后 再 
从 相关 的 分 片 中 取出 文档 。 这 对 于 有 许多 分 片 的 索引 来 说 是 很 便利 的 ,因为 返回 结果 不 会 
重复 。 

(2) DFS_QUERY_THEN_FETCH: 与 QUERY_THEN_FETCH 相似 ,不 同 之 处 在 
于 : 参数 取 值 为 DFS_QUERY_THEN_FETCH 时 ,首先 计算 分 布 词 频 ,以 获得 更 准确 的 
得 分 。 


代码 段 4.18: 检索 操作 示例 
//import 语 句 , 上 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
adransportAciress (new Transportpctiress (Inetpdtiress.getPByNEme ("localhost"), 9300)); 
SearchResponse response- client .prepareSearch("it- home") // 指 定 索引 文件 
.setTYpes ("_docm) // 指 定 统一 的 类 型 文件 
.setSearchTYpe (SearchType.DES QUERY THEN FETCH) 
.setQuery (QueryBui lders.temuery ("content", "java")) // 检 索 content 字段 中 的 词 项 java 
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.setPostFilter (QueryBuilders.rangeQuery ("publishTime") .fram("2018- 01- 01") .to("now")) 
.setFram(0) .setSize (60) .setExplain (true) 
-get (); 

SearchHit[] hits= response.getHits() .getHits(); 

for (SearchHit hit : hits) { 
System.cut.println (hit.sourcensString())7 

外 

client.close(); 


名 D 常用 的 检索 API 如 下 ， 

。 search(SearchRequest request) ,search(SearchRequest request, ActionListener 
一 SearchResponse 二 listener): 根据 SearchRequest 提供 的 index、type 和 id 执 
行 搜索 操作 。 

。 prepareSearch(String. . .indices): 准备 搜索 ,但 不 执行 搜索 操作 。 


4.4.2 multiSearch 


multiSearch 是 Elasticsearch 提供 的 针对 多 个 查询 请 求 进行 一 次 查询 的 接口 。 该 接口 
虽 能 同时 执行 多 个 不 同 的 查询 ,但 无 法 对 最 终结 果 自 动 分 页 ,而 且 有 可 能 多 个 查询 请 求 得 到 
的 结果 中 存在 重复 ,但 multiSearch 并 不 负责 去 重 。 代 码 段 4. 19 展示 了 如 何 使 用 Java 客户 
端 进行 multiSearch 操作 ,首先 在 prepareSearch() 中 构造 两 个 查询 ( 设 定 查 询 项 及 返回 结果 
集 大 小 ) ,之 后 分 别 将 它们 添加 到 prepareMultiSearch() 中 并 执行 多 重 查 询 。 


代码 段 4.19: multiSearch 

//import 语句, 上 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

SearchRequestBuilder srbl= client 
.PrepareSearch () .setQuery (QueryBui lders.queryStringouery ("json CR. 
gs0n")) .setSize(]); 

SearchRequestBuilder srb2 client 
.PrepareSearch () .setQuery (QueryBui lders .matchOvery ("oontent", "java")). 
setSize (1); 


pn 
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We 


MnltiSearchResponse sr= client.prepareMnltiSearch () 
.ada(srbl) 
.ada(srbD) 
:get (); 
long nbHits= 0; 
for MultiSearchResponse. Ttem item : sr.getResponses()) { 
SearchResponse response= item.getResponse ()7 
TbHits+ 一 Tesponse.getHits() .getTotalHits (); 
和 
System.out.println (" 共 检索 到 "+ rnbHitst "条 记录 。"); 
client.close()7 


1 
cp 常用 的 执行 多 个 搜索 请 求 的 multiSearch API 如 下 : 


*。 multiSearch(MultiSearchRequest request) 。 


multiSearch (MultiSearchRequest request, ActionListener = MultiSearchResponse> 


listener) 。 


prepareMultiSearch( )。 


4.4.3 查询 模板 


Elasticsearch 提供 了 查询 模板 接口 ,通过 这 一 接口 ,可 以 将 JSON 格式 的 RESTful 查 
询 语句 嵌入 到 Java 代码 中 。 在 执行 查询 时 ,将 键 - 值 对 形式 的 参数 填充 到 语句 中 相应 的 位 
置 执 行 。 代 码 段 4. 20. 1 利用 查询 模板 实现 了 match 查询 ,由 setScript() 方 法 添加 RESTful 
查询 语句 ,语句 中 {{param}} 是 一 个 形式 参数 ,实际 参数 是 通过 将 搜索 词 java 放 入 键 - 值 对 
中 传人 的 。 


代码 段 4.20.1: 在 Java 中 利用 查询 模板 执行 match 查询 
//import 语句 ,上 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 

-addTransportAddress (new TransportAddress (InetAddress.getByName 

("localhost"), 9300)); 
Map< String, Object> terplate params= new HashMap< String, Cbject> (); // 传 递 参数 的 键 值 对 
template params.put ("param", "java"); // 实 际 参数 放 入 键 值 对 
SearchResponse responser new SearchTenplateRequestBuilger (client) 
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-setScript ("{\n"+ // 添 加 FESTful 查询 语句 
Nauery" : {\n+t 
- \matd\" : fn 
\"oontent\" : \"{{fparam}}\"\n"+ // 给 出 形式 参数 
w Nn 
相 Mn 
Sr 
.setScriptType (ScriptType. INLINE) // 将 查询 语句 和 代码 写 在 一 起 
-setScriptFarams (terplate params) // 传 人 键 - 值 对 ,用 于 传人 实际 参数 
.setRequest (new SearchRequest ()) 
:get() 
.getResponse (); 
SearchHit[] hits= response.getHits () .getHits(); 
for (SearchHit hit : hits) { 
System.out.println (hit .getSouroaAsString()); 
} 
client.close(); 


Python 中 的 模板 查询 语句 与 3. 2. 6 节 所 述 相似 ,但 Python 中 使 用 检索 API 需要 改 为 
search_template, 代 码 段 4. 20. 2 实现 了 在 Python 中 使 用 模板 查询 的 方法 。 


代码 段 4.20.2: 在 Python 中 利用 查询 模板 执行 match 查 询 
//inmport 语 句 , 略 
es=Elasticsearch () 
body={ 
"inline": { 
"gpery": { 
"atch": { 
"ftmy_fieldjj": "{fmy_value}}" // 设 置 形式 参数 ,使 用 {1{ }] 括 起 来 
} 


}, 
"size": "{{my_size}}" 


// 设 置 实际 参数 


res= es.search template (index= "it- hame", body=body) // 注 意 , 这 里 需要 改 为 seardh template 
for hit in res['hits'] ['hits']: 
print hit[' souroe']) 
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4.4.4 ”Query DSL 概述 


前 面 提 到 ,Search API 允许 执行 一 次 信息 检索 ,返回 一 个 与 查询 匹配 的 结果 集 。 它 可 
以 在 一 个 (或 多 个 ) 索 引文 件 上 执行 。 而 本 节 介 绍 的 Query DSL 能 够 专注 于 特定 问题 ,执行 
更 为 专业 的 检索 任务 。 

Query DSL 分 为 全 文 检索 . 词 项 检索 .复合 查询 .连接 查询 .跨度 查询 .特殊 查询 和 脚本 
等 内 容 。 其 中 ,全 文 检索 包括 match 查询 .multi_match 查询 simple_query_string 查询 等 ， 
用 于 执行 不 同形 式 的 全 文 检索 任务 ; 词 项 检索 包括 term 查询 terms 查询 range 查询 、 
prefix 查询 ,wildcard 查询 .regexp 查询 等 ,用 于 执行 对 不 可 拆 分 的 关键 词 词 项 的 检索 ;复合 
查询 包括 bool 查询 .boosting 查询 等 ,能够 根据 用 户 对 不 同 条 件 下 的 数据 的 需要 ,对 数据 进 
行 综合 信息 检索 的 任务 ;跨度 查询 包括 span_term 查询 ,span_or 查询 .span_containing 查 
询 .span_within 查询 等 ,能够 根据 不 同形 式 的 跨度 (如 时 间 \ 两 词 项 截 出 的 文本 段 ) 执 行 对 应 
的 查询 ;特殊 查询 包括 more like this 查询 , 它 和 脚本 不 属于 上 述 任何 一 类 ,可 以 完成 较为 特 
殊 的 任务 。 

在 Java 客户 端 使 用 的 Query DSL 和 RESTful 是 相似 的 。 编 程 者 可 以 用 QueryBuilder 
来 构建 query ,然后 使 用 Query DSL 进行 搜索 。 下 面 对 基 于 query 的 客户 端 实现 方法 进行 
介绍 。 


4.4.5 matchAllQuery 


Elastic 公司 将 matchAllQuery() 作 为 全 文 检索 之 外 的 查询 方法 ,其 作用 是 匹配 文档 中 
的 所 有 字段 。 当 需要 匹配 所 有 项 或 者 查询 某 些 索引 文件 下 的 记录 总 量 时 ,可 以 使 用 
matchAllQuery() 方 法 。 它 相当 于 关系 数据 库 SQL 语句 中 的 select * from table 语句 ,其 
后 的 setFrom() 和 setSize() 用 于 控制 返回 的 结果 集 大 小 。 该 方法 的 实现 如 代码 段 4. 21 
所 示 。 


代码 段 4.21: 使 用 matchallonery() 方 法 查询 所 有 字段 

/Vinport 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress. 
getByName ("localhost"), 9300)); 
QueryBuilder do=matchAllQuery(); 
SearchResponse response- client.prepareSearch("it-home") 。“”// 指 定 索 引文 件 
-setTypes ("_dbc") // 指 定 统一 的 类 型 文件 名 
-SetQuery (qb) // 指 定 match all query 
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.SetFram(0) 
.setSize(10) 
.get0); 
for (SearchHit hit : response.getHits() .getHits()) { // 和 遍历 检 索 结果 
System-cut.println (nit.getSourceRsString())， 
} 
client.close(); 


4.4.6 全 文 检索 


1. matchQuery() 

全 文 检索 方法 matchQuery(String name， Object text) 能 够 使 用 某 一 字段 的 值 对 文档 
进行 检索 。 代 码 段 4. 22 实现 了 matchQuery() 的 功能 ,在 索引 文件 名 为 it-home 的 文档 中 ， 
在 content 字段 搜索 包含 “程序 员 ? 字 符 串 的 数据 集 。 其 他 的 相关 方法 ,如 setSearchType ()、 
setFrom() ,setSize() ,setExplain() 等 ,不 再 给 出 解释 与 使 用 说 明 。 可 以 将 matchQuery() 定 
义 为 一 个 QueryBuilder() 方 法 的 实例 ,传人 setQuery() 方 法 中 。 


代码 段 4.22: 使 用 matchouery() 方 法 实现 检索 

//import 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
acHIransportAcHress (new TransportAcHiress (Inethcdress .getByNeme ("localhost"), 9300)); 


QueryBuilder db-matchouery( 
"oontent", // 译 段 
" 喔 序 员 " // 搜 索 词 


) 7 

SearchResponse response= client .prepareSearch ("it- hame") 
“3etTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:3etQuery (gp) 
.SetFram(0) 
.SetSize(10) 
.setExplain (true) 
-get(); 

for (SearchHit hit : response.getHits() .getHits()) { // 遍 历 检索 结果 
System.cut-Println (hit .getSourosAsString()); 

} 

client.close(); 
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2 
区 matchQuery() 能 够 使 用 某 一 字段 的 值 对 文档 进行 检索 ;matchAllQuery() 用 
于 匹配 文档 中 的 所 有 字段 。 


2. multiMatchQuery() 

相对 于 前 面 的 matchQuery() ,这 里 提 到 的 multiMatchQuery(" 查 询 字符 串 ","field1"， 
"field2",…) 针 对 的 是 多 个 字段 的 搜索 。 也 就 是 说 , 当 multiMatchQuery() 中 字段 列表 参数 
只 有 一 个 时 ,其 作用 与 matchQuery() 相 当 ; 而 当 字段 列表 有 fieldl field2 等 多 个 参数 时 , 则 
fieldl 或 者 field2 中 包含 指定 的 文本 ,都 算 检 索 到 结果 。 代 码 段 4. 23 给 出 了 在 title 和 
content 两 个 字段 中 对 搜索 词 “ 中 国 ” 的 检索 。 


代码 段 4.23: 使 用 multiMatchouery() 实 现 跨 字 段 检索 

//inmport 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
-addTransportAddress (new TransportAddress (InetAddress.getByName 
("localhost"), 9300)); 


QeryBuilder qo=mltiMatchOvery( 
串 国 " // 搜 索 词 
"title", "oontent" // 要 检索 的 字段 


a 

SearchResponse response= client .prepareSearch ("it- hame") 
“setTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:3etQuery (gp) 
.SetFram(0) 
.setSize (10) 
.setExplain (true) 
get(); 

for (SearchHit hit : response.getHits() .getHits()) { 
System.out-println (hit.getSourosAsString()); 

} 

client.close(); 


3. queryStringQuery() 

queryStringQuery() 查 询 支 持 Lucene 所 有 的 查询 语法 。 对 给 定 的 内 容 , 它 会 使 用 查询 
解析 器 来 构造 实际 的 查询 ,如 QueryBuilder qb 二 QueryBuilders. queryStringQuery(" 十 ASP. 
NET -Java") ,其 含义 是 搜索 包含 ASP. NET 且 不 含 Java 的 结果 集 。 相 关 实 现 见 代码 
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段 4.24。 


代码 段 4.24: 使 用 qheryStringpoery() 方 法 执行 查询 
V//import 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAdiress (InetAdiress.getByName 
("localhost"), 9300)); 
QueryBuilder dh- queryStringouery ("+ ASP.NET - Java") ; // 注 意 减 号 前 有 空格 
SearchResponse response= client .prepareSearch ("it— hame") 
setTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
“3etQuery (gb) 
.setFram(0) 
.setSize(10) 
.SetExplain (true) 
‘get (); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out.println (hit .getSourosAsString()); 
和 
client.close(); 


4. simpleQueryStringQuery() 

simpleQueryStringQuery() 方 法 支持 Lucene 所 有 的 查询 语法 。 对 于 给 定 的 内 容 , 该 查 
询 使 用 解析 器 来 构造 实际 的 查询 。 查 询 过 程 中 不 会 抛 出 任何 异常 ,不 可 用 的 查询 将 自动 被 
忽略 。 代 码 段 4.25 实现 了 对 title 字段 中 包含 “程序 员 ” 和 Java 且 content 字段 中 不 包含 
ASP 的 数据 进行 检索 的 功能 ,其 中 “title: 程 序 员 2” 是 指 在 title 字段 中 要 包含 “程序 员 ” 字 符 
串 且 其 权重 为 2 “二 title:Java" 是 指 在 title 字段 中 还 要 同时 包含 字符 串 Java, 但 该 字符 串 的 
权重 为 1, 这 些 权重 会 影响 到 最 终结 果 排 序 ;*-content: ASP” 表 示 在 content 字段 中 不 能 有 
ASP 字符 串 。 


代码 段 4.25: 使 用 simpleQueryStringovery() 实 现 类 似 Iucene 的 检索 

//import 语句, 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

QueryPuilder db- simpleQuerystringovery ("title: 程 序 员 “2+ title:Java - content: 

DSP"); 

SearchResponse response= client .prepareSearch ("it— hame") 
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.setTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
.setQuery (db) 
.setFram(0) 
.setsize(10) 
.setExplain (true) 
-geL()7 

for (SearchHit hit : response.getHits() .getHits()) { 
System.cut.println (hit .getSourosAsString()); 

} 

client.close(); 


4.4.7 词 项 检索 


1. termQuery() 


词 项 检索 方法 termQuery(" 查 询 字 段 "," 查 询 词 ") 的 作用 是 在 指定 的 字段 中 检索 指定 
的 查询 词 。 例 如 QueryBuilder qb 二 termQuery("content"," 程 序 员 ") ,含义 是 在 content 字 
段 中 查询 包括 “程序 员 " 字 符 串 的 结果 集 。 针 对 it-home 索引 文件 的 相关 实现 如 代码 段 4. 26 


所 示 。 


代码 段 4.26: 使 用 temQvery() 方 法 查询 词 项 
//import 语句 ,上 略 


("localhost"), 9300)); 
QeryBui lder qo= tempuery( 
"title", 
' 嘲 序 员 " 
a 


:SetTypes ("_doc") 
.setSearchType (SearchType.DFS QUERY THEN FETCH) 
-setQuery (dp) 
.setFram(0) 
.setSize(10) 
.setExplain (true) 
-get (); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out .printin (hit .getSourosAsString()); 
和 
client.close(); 


TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 


SearchResponse response= client .prepareSearch ("it— hame") 


/字段 
// 查 询 词 
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2. termsQuery() 

termsQuery(" 查 询 字 段 ", "field1", "field2”,.…) 方 法 允许 在 特定 字段 中 匹配 多 个 词 
项 ,检索 某 些 同一 个 字段 中 包含 多 种 不 同 信 息 的 多 个 文档 。 例 如 ,如 果 想 查询 在 索引 文件 
it-home 中 的 title 字段 中 包含 字符 串 “ 程 序 员 ” 或 Java 的 文档 ,可 以 采用 代码 段 4. 27 中 的 
方法 。 


代码 段 4.27: 使 用 termspuery() 方 法 查询 不 同 的 词 项 

//import 语句, 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress.getByName 
("localhost"), 9300)); 


QueryBui lger do= termsQuery( 
"title / 计 段 
喔 序 员 ", "Java" // 多 个 查询 词 


a 

SearchResponse response= client .prepareSearch ("it— home") 
.setTypes ("_doc") 
.SetSearchTYPe (SearchType.DFS QUERY THEN FETCH) 
.setpuery (qb) 
.SetFram(0) 
“SetSize(10) 
.setExplain (true) 
-getE()7 

for (SearchHit hit : response.getHits () .getHits()) { 
System.out .print ln (hit .getSouroaAsString()); 

} 

client.close(); 


3. rangeQuery() 

rangeQuery(" 查 询 字段 ") 方 法 是 针对 范围 的 查询 ,一 般 只 作用 在 单个 字段 上 ,并 且 查 
询 参 数 要 封装 在 字段 名 称 中 , 它 也 支持 from/to 或 gte/lte 等 参数 。 代 码 段 4. 28 实现 了 对 
发 布 时 间 在 2018-01-01 至 今 范围 内 数据 的 查询 。 类 似 地 ,可 以 使 用 其 他 时 间 表 示 方 式 , 参 
见 3. 3. 2 节 中 关于 range 查询 的 部 分 。 


代码 段 4.28: 使 用 rangeQvery() 方 法 查询 特定 时 间 范 围 内 的 数据 
//import 语 句 , 上 略 
TransportClient client— new PreBuiltTransportClient (Settings.FMPTY) 
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.addTransportAddress (new TransportAdiress (InetAddress.getByName 
("localhost"), 9300)); 


QueryBuilqer qo= rangeQuery ("publishTime") // 指 定 查询 范围 的 出 版 时 间 字 段 
.gte("2018- 01- 01") // 指 定 日 期 下 限 
-lte ("mow"); // 指 定 日 期 上 限 
SearchResponse response= client.prepareSearch ("it— hame") 
.setTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
“3etQuery (gp) 
-SetFrcm(0) 
.setSize(10) 
.setExplain (true) 
-get(); 


for (SearchHit hit : response.getHits() .getHits()) { 
System.out.println (hit .getSouroaAsString()); 

} 

Client.close(); 


4. prefixQuery() 
prefixQuery(" 查 询 字段 "," 前 级 ") 方 法 能 够 根据 输入 关键 词 开 头 的 一 部 分 来 匹配 整 条 


数据 。 代 码 段 4. 29 实现 了 对 title 字段 中 所 有 以 “程序 ”开头 的 数据 的 检索 。 


代码 段 4.29: 使 用 prefixQuery() 方 法 查询 指定 前 缀 的 数据 

//import 语句, 上 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 


QueryBuilder qo=prefixQuery( 
"title", /字段 
喔 序 " // 查 询 词 前 绥 


) 7 
SearchResponse response= client.prepareSearch ("it- hame") 
.setTYPes("” doc ) 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:3etOuery (qb) 
-SetFrom(0) 
-SetSize(10) 
.setExplain (true) 
-get(); 
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for (SearchHit hit : response-getHits() .getHits()) { 
System.out .printIn (hit.getSourosAsString()); 

} 

client.close(); 


5. wildcardQuery() 

wildcardQuery(" 查 询 字 段 "," 含 有 通配符 的 查询 词 ") 方 法 的 作用 是 在 指定 的 字段 中 检 
索 含有 通配符 的 查询 词 ,如 QueryBuilder qb= wildcardQuery("content"，"? 国 ") 。 有 关 通 
配 符 检 索 的 内 容 参 见 3. 3. 2 节 的 叙述 ,这 里 不 再 赣 述 。 在 it-home 索引 文件 中 的 相关 实现 
见 代 码 段 4. 30。 


代码 段 4.30: 使 用 wildcardpuery() 执 行 带 有 通配符 的 查询 
V//inmport 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 
QueryBuilder dt wildcardpuery("title"， "2 国 "); /字段 和 查询 词 
SearchResponse response= client.prepareSearch ("it- home") 
.setTYPes(”doc ) 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:setQuery (qb) 
.SetFram(0) 
.setSize (10) 
.setExplain (true) 
‘get 0); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out .print in (hit .getSouroaAsString()); 
i 
client.close(); 


6. regexpQuery() 

regexpQuery(" 查 询 字 段 "," 正 则 表达 式 ") 方 法 的 作用 是 利用 正则 表达 式 进 行 查询 。 
文档 中 凡是 正则 表达 式 能 够 匹配 的 内 容 , 其 整 条 数据 就 会 被 作为 查询 结果 返回 。 代 码 段 
4. 31 实现 了 对 内 容 包含 “Java 程序 员 " 或 ASP. NET 的 文档 数据 的 查询 。 


代码 段 4.31: 使 用 正则 表达 式 查 询 
//import 语 句 , 上 略 
TransportClient client— new PreBuiltTransportClient (Settings.FMPTY) 
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.addimransportRdtiress (new TransportAdiress (InetAddress.getByName 
("localhost"), 9300)); 


QueryBui lger qo= regexpQuery( 
"Content", /字段 
"[Java 程 序 员 |ASP.NET]" // 正 则 表达 式 


); 

SearchResponse responser client .prepareSearch ("it— home") 
“3etTypes ("_doc") 
“SetSearchType (SearchType.DES QUERY THEN FETCH) 
:setQuery (gh) 
:SetFrom(0) 
-SetSize(10) 
.SetExplain (true) 
get 0); 

for (SearchHit hit : response.getHits() .getHits()) { 
System.out.println (hit .getSourosAsstring()); 

} 

Client.close(); 


4.4.8 复合 查询 


1. boolQuery() 
boolQuery() 是 一 个 由 其 他 类 型 查询 组 合 而 成 的 文档 匹配 类 型 的 查询 ,可 由 一 个 或 者 多 
个 查询 语句 构成 。 查 询 语句 中 可 以 使 用 的 匹配 条 件 如 下 : 
。 boolQuery(). must(termQuery(" 字 段 ", "查询 内 容 ")): 待 匹配 的 文档 的 指定 字段 
必须 满足 查询 内 容 。 
。 boolQuery(). should(termQuery(" 字 段 "," 查 询 内 容 ")): 待 匹 配 的 文档 的 指定 字 
段 可 以 满足 查询 内 容 。 
。 boolQuery(). mustNot(termQuery(" 字 段 ", "查询 内 容 ")): 待 匹 配 的 文档 的 指定 
字段 必须 不 满足 查询 内 容 , 但 不 能 只 用 一 个 mustNot 语句 搜索 文档 。 
上 述 匹 配 条 件 可 以 组 合 起 来 并 作为 QueryBuilder 的 具体 方法 。 代 码 段 4. 32 给 出 了 一 
个 形式 化 的 例子 。 


代码 段 4.32: boclonery() 查 询 的 形式 化 表示 
QueryBuilder dt QueryBuilders-boolouery() 
-mst (temQuery ("字段 1", 嘲 询 内 容 1")) 
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-mst (termpuery( 哼 段 2", 吐 询 内 容 2")) 

-mustNot (tempuery ("字段 3", 吐 询 内 容 3")) 
-should (temruery ("字段 各, 吐 询 内 容 4")) 
.filter (temrvery(" 字 段 5", 吐 询 内 容 5")); 


代码 段 4. 33 给 出 了 实际 使 用 方法 ,这 里 是 在 索引 文件 it+home 的 content 字段 中 查询 
包含 “开发 "和 “算法 ” 且 不 包含 “教学 ”, 同 时 在 content 字段 中 可 以 包含 “代码 ”并 且 与 java 
相关 (但 不 影响 分 值 ) 的 结果 集 。 


代码 段 4.33: 使 用 boolouery() 执 行 查询 
//inmport 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 
QueryBuilger dboolRuery() 
-must (termmpuery ("content", "开发 ")) 
-must (termDuery("content"，" 算 法 风 ) 
-mustNot (termrDuery ("oontent"， 吓 学 ")) 
.should (temQuery ("content", "代码 ")) 
:filter (terrery ("content", "java")); 
SearchResponse response= client .prepareSearch ("it- hame") 
.setTYyPes(” doc ) 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
.setpuery (qb) 
.3etFram(0) 
.setSize(10) 
.setExplain (true) 
.getE()7 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out.println (hit .getSouroaAsString()); 
} 
client.close(); 


2. boostingQuery() 

boostingQuery() 方 法 可 将 匹配 的 结果 降级 处 理 。 与 bool 查询 中 的 not 子 句 不 同 ， 
boostingQuery() 查 询 结果 中 仍然 会 包含 不 符合 预期 的 词 项 ,但 其 分 值 会 降低 。 代 码 段 4.34 
实现 了 对 标题 含有 java 字符 串 的 文档 中 内 容 与 “求职 ”不 相关 的 信息 的 查询 。 关 键 词 “ 求 
职 ” 处 于 后 面 的 子 名 中 ,其 结果 的 分 值 将 会 根据 negativeBoost() 方 法 中 指定 的 值 降低 。 
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代码 段 4.34: 使 用 boostingovery() 方 法 执行 分 值 提 升 和 降低 的 查询 

//import 语句 ,上 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAcddress (new TransportAddress (InetAddress.getByName 
("localhost"), 9300)); 


QeryBuilder dh- boostingpuery( 
termouery("category" "java") , // 要 提升 分 值 的 字段 
termmrpuery("content" " 味 职 ) // 要 降低 分 值 的 字段 


.negativeBoost (0.2f) ; 

SearchResponse response= client .prepareSearch ("it— hame") 
“SetTypes ("_doc") 
.setSearchType (SearchType. DES QUERY THEN FETCH) 
:setRuery (qh) 

“SetFrom(0) 
.SetSize(10) 
.SetExplain (true) 
“get 0); 

for (SearchHit hit : response.getHits() .getHits()) { 
System.out.Println (hit .getSouroaAsString()); 

} 

Client.close(); 


4.4.9 跨度 查询 


1. spanTermQuery() 
spanTermQuery() 方 法 可 以 查询 包含 词 项 的 一 段 文本 。 代 码 段 4. 35 实现 了 对 包含 词 
项 java 的 查询 。 


代码 段 4.35: 使 用 spanTemQuery() 执 行 包含 特定 词 项 的 文本 的 查询 

//import 语句 ,上 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddiress (new TransportAddress (Inetactiress.getByName 
("localhost"), 9300)); 


QueryBuilder dr spanTemmRuery( 
"Content", /字段 
"java" // 相 查询 的 词 项 


); 
SearchResponse responser client .prepareSearch ("it— home") 
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-3etTypes ("posts") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
-setpuery (qb) 
.setFram(0) 
.setSize (10) 
.setExplain (true) 
-get (); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out .println (hit .getSouroeAsstring()); 
和 
client.close(); 


2. spanOrQuery() 
spanOrQuery() 方 法 可 以 包含 多 个 spanTermQuery() 方 法 ,匹配 其 查询 结果 的 并 集 。 
代码 段 4. 36 实现 了 对 含有 词 项 java json 或 jquery 的 查询 。 


代码 段 4.36: 使 用 spanorQuery() 方 法 执行 查询 

//import 语句, 上 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

QeryBui lder db- spanorQuery (sbanTermRuery("content" "java") ) 
.addclause (spanTermpuoery("content", "json") ) 
"addclause (sanTermmpuery("content", "jquery")); 

SearchResponse response= client .prepareSearch ("it— hame") 
“3etTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
.setpuery gb) 
.setFram(0) 
.setSize(10) 
.setExplain (true) 
-geL()7 

for (SearchHit hit : response.getHits() .getHits()) { 
System.cut.println (hit .getSouroaAsString()); 

和 

Client.close()7 
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3. spanContainingQuery() 

spanContainingQuery() 方 法 中 包含 spanNearQuery() 方 法 ,能 够 通过 两 个 词 项 确定 一 
个 文本 跨度 以 及 一 个 spanTermQuery() 查 询 , 能 够 指定 跨度 中 的 第 三 个 词 项 。 在 查询 时 如 
果 发 现 前 者 的 匹配 项 中 包含 了 后 者 的 匹配 项 ,那么 前 者 的 匹配 项 将 作为 查询 结果 被 返回 。 
代码 段 4. 37 实现 了 在 词 项 windows 和 unix 的 匹配 项 中 对 含有 词 项 mac 的 匹配 项 的 查询 ， 
spanNearQuery() 方 法 中 的 数字 为 slop 参数 ,指定 了 两 个 词 项 之 间 可 以 存在 多 少 个 不 匹配 
的 词 项 。 


代码 段 4.37: 使 用 speancontainingQuery() 方 法 执行 查询 
//inmport 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 
QueryBui lder d= spanContainingRuery( 
spanNearQuery (spanTemrQuery ("content", "windows") ,30) 。“”// 确 定 跨度 的 第 一 个 词 项 及 slop 参 数 
-addclause (spanTemruery ("content","unix")) 。“”// 确 定 跨度 的 第 二 个 词 项 
.inorder (true), 
SpanTermQuery ("oontent", "mac") ) ; // 两 词 项 之 间 包 含 的 词 项 
SearchResponse response= client .prepareSearch ("it— hame") 
“3etTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:3etQuery (gb) 
.setFram(0) 
.SetSize(10) 
.SetFExplain (true) 
“geL()7 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out.Println (hit.getSourcensString()) 7 
} 
Client.close(); 


4. spanWithinQuery() 

spanWithinQuery() 方 法 中 含有 spanNearQuery() 方 法 ,能 够 通过 两 个 词 项 确定 一 个 文 
本 跨度 以 及 一 个 spanTermQuery() 查 询 ,能 够 指定 跨度 当中 的 第 三 个 词 项 。 在 查询 时 如 果 
发 现 前 者 的 匹配 项 中 包含 了 后 者 的 匹配 项 ,那么 后 者 的 匹配 项 将 作为 查询 结果 被 返回 。 代 
码 段 4. 38 实现 了 在 词 项 windows 和 unix 的 匹配 项 中 对 含有 词 项 mac 的 匹配 项 的 查询 。 
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代码 段 4.38: 使 用 sperithinpuery() 方 法 执行 查询 
//import 语句 ,上 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAdiress (InetAdiress.getByName 
("localhost"), 9300)); 
QueryBuilder qo= spanWithinRuery( 
spanNearQuery (spanTermmpuery ("content", "windows"), 30) 。 // 确 定 跨度 的 第 一 个 词 项 及 slop 参 数 
.aqdclanse (spanTermpuery ("oontent", "unix") ) // 确 定 跨度 的 第 二 个 词 项 
-inorder (true), 
SpanTermQuery ("content", "mac") ) ; // 两 词 项 之 间 包 含 的 词 项 
SearchResponse response= client .prepareSearch ("it— hame") 
.setTYPes ("posts") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:setRuery (gb) 
.setFram(0) 
.setSize(10) 
.SetExplain (true) 
‘get (); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out .print in (hit.getSourcensString())7 
’ 
client.close(); 


4.4.10 特殊 查询 


1. moreLikeThisQuery() 

可 以 通过 moreLikeThisQuery() 方 法 查询 与 指定 文本 相似 的 文档 ,实现 方法 见 代码 段 4. 39。 
该 代码 段 中 定义 了 不 同 字段 和 查询 文本 的 集合 ,作为 参数 传人 moreLikeThisQuery() 方 法 
中 ,并 在 其 中 使 用 minTermFreq () 方 法 和 maxQueryTerms() 方 法 进行 设置 。 其 后 的 
minTermFreq() 方 法 指定 查询 内 容 的 最 少 出 现 次 数 ,maxQueryTerms() 方 法 指定 显示 匹配 
结果 的 最 大 条 数 。 


代码 段 4.39: 使 用 moreLiksThisQuery() 执 行 查询 

//import 语句, 上 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
-addTransportAddress (new TransportAddress (InetAddress.getByName 
("Tocalhost"), 9300)); 


第 4 章 Elasticsearch API 及 其 应 用 131 


String[] fields= {"title", "oontent"}; /查询 字段 
String[] texts= {" 可 运行 于 多 个 平台 "}; /指定 要 查询 的 内 容 
Item[] items=null; 
QueryBui lder qo=moreLikeThisuery (fields, texts, items) 
-minTemEreqg (1) /| 指定 最 少 出 现 多 少 次 才能 被 检 出 
“maxQueryTerms (12) ; // 指 定 显示 结果 的 最 大 条 数 
SearchResponse response= client.prepareSearch ("it— hame") 
.setTypes ("posts") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
“3etQuery (qh) 
.setFram(0) 
.setSize(10) 
.SetExplain (true) 
-get(); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out.println (hit.getSourceRsString())7 
Ek 
client.close(); 


1 
[pb moreLikeThisQuery () 方法 根据 字段 、 相似 文本 (likeTexts)、 相似 词 项 
(likeItems) 找 到 一 个 文档 ,再 找到 与 这 个 文档 相似 的 其 他 文档 。 其 常用 的 API 如 下 : 
moreLikeThisQuery(Item[ | likeltems) 
moreLikeThisQuery(String[ | fields, String[ | likeTexts, Item[ |] likeItems) 
moreLikeThisQuery(String[ | likeTexts) 
moreLikeThisQuery(String[ | likeTexts, Item[ | likeltems) 


2. scriptQuery() 

scriptQuery() 方 法 可 以 通过 使 用 script 子 句 来 定制 表达 式 , 执 行 查 询 时 ,script 子 句 可 
以 生成 一 个 由 外 部 参数 计算 出 的 特定 字段 并 插入 到 原来 的 查询 语句 中 执行 。script 子 句 默 
认 使 用 的 脚本 语言 是 painless。 代 码 段 4. 40 演示 了 对 replies 值 大 于 0 的 文档 的 查询 ,在 
scriptQuery() 方 法 中 传人 的 脚本 信息 为 默认 的 inline 格式 。 


代码 段 4.40: 使 用 scriptQuery() 执 行 查询 

//import 语句 ,上 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAdiress (InetAddiress.getByName 
("localhost"), 9300)); 
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QueryBuilder du- scriptouery( 
new Script ("doc['replies'] .value> 0") // 直 接 传人 脚本 
) 7 
SearchResponse responser client.prepareSearch ("it— home") 
.setTypes ("_ doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
:setQuery (qb) 
.setFram(0) 
.setSize (10) 
.SetExplain (true) 
‘get(); 
SearchHit [] hits= response.getHits() .getHits (); 
for (SearchHit hit : hits) { 
System.out.println (hit.getSourceRsString())7 
3 
client.close(); 


45 聚合 


关于 聚合 ,在 3. 4 节 中 已 给 出 了 较为 具体 的 描述 。 在 Java 接口 的 API 中 ,聚合 只 有 
metric 和 bucket 两 种 形式 ,并 且 是 像 查询 一 样 添加 到 执行 检索 的 代码 中 间 执 行 的 。 此 外 ， 
聚合 API 中 还 特别 提供 了 专门 用 于 接收 聚合 结果 数据 的 方法 。 下 面 介绍 两 种 聚合 的 编写 
方法 ,限于 篇 幅 , 本 节 只 对 部 分 聚合 进行 介绍 ,包括 metric 聚合 中 的 min 聚合 .sum 聚合 、 
stats 聚合 ,extended_stats 聚合 ,value_count 聚合 ,以 及 bucket 聚合 中 的 terms 聚合 ,range 


聚合 .date_range 聚合 ,histogram 聚合 .date_histogram 聚合 等 。 
4.5.1 Metric 聚合 


1. min 聚合 .sum 聚合 

在 聚合 中 可 以 快捷 地 完成 对 最 值 .和 、 平 均值 等 的 统计 。 代 码 段 4. 41 完成 对 指定 字段 
的 最 小 值 聚 合 ( 若 统计 最 大 值 , 将 代码 段 4. 41 中 的 min 换 成 max 即 可 ,这 里 不 再 费 述 ) 。 其 
中 ,第 一 段 是 构造 聚合 的 过 程 , 执 行 后 将 生成 该 聚合 的 RESTful 代码 ;第 二 段 是 执行 数据 检 
索 的 过 程 ,会 返回 搜索 任务 的 结果 集 ; 第 三 段 是 获取 聚合 统计 结果 的 过 程 ,统计 值 将 被 赋值 
给 double 型 变量 value。 


pe 


第 4 章 Elasticsearch API 及 其 应 用 (133) 


/了 


代码 段 4.41: 使 用 min 聚 合 统计 最 小 访问 量 

//import 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAdiress (InetAddiress.getByName 
("localhost"), 9300)); 

MinAggregationBuilgder aggregation= PggregationBuilders 


min("agg") // 聚 合 的 名 称 
.field ("views"); // 执 行 聚合 的 字段 
SearchResponse sr= client.prepareSearch ("it— home") /| 创建 ssarchFesponse, 指 定 索引 文件 
.setTypes ("_doc") /| 指定 类 型 文件 
.addAggregation (aggregation) // 添 加 聚合 
-get()7 


Min aggr sr.gethggregations () .get ("agg"); 


double value= agg.getValue (); // 获 取 聚 合 统计 结果 
for (SearchHit hit : sr.getHits() .getHits()) { 
System.out.Println (hit .getSourosAsString()); // 遍 历 检索 结果 
} 
System.out.Println ("Minimm views is: "+ value); // 输 出 聚合 统计 结果 


client.close()7 


sum 聚合 只 需 在 相应 的 类 和 方法 的 调用 上 稍 加 修改 即 可 。 代 码 段 4. 42 完成 对 指定 字 
段 的 求 和 ( 若 统计 平均 值 , 将 代码 段 4. 42 中 的 sum 换 成 avg 即 可 ,不 再 袭 述 ) 。 


代码 段 4.42: 使 用 sm 聚合 统计 总 访问 量 

/Winport 语 句 , 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

SurAggregationBuilder aggregation= AggregationBuilders // 这 里 调用 SumaggregationBuilder 类 
-sum("agg") // 这 里 调用 sum() 方 法 
.field ("views"); 

SearchResponse sr= client.prepareSearch ("it- hame") 

.setTypes("” docm) 
-addnggregaticn (aggregaticn) 


人 
(134! 大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 一 “Elstic suck 6: Elasticsearch、Logstash、Kibana、X-Pack、Beats (第 4 版 ) 


.geE( 7 
Sum aggr sr.getRggregaticns() .get ("agg"); // 这 里 调用 sm 类 
double value= agg-getValue ()7 
for (SearchHit hit : sr.getHits() .getHits()) { 
System.cut.println hit.getSourosAsString()); 
} 
System.out..printIn ("Sum of views is: "+value); 
client.close(); 


2. stats 聚合 .extended_stats 聚合 
stats 聚合 实现 多 值 统计 ,返回 值 包括 计数 .最 小 值 .最 大 值 . 平 均值 . 求 和 等 。 代 码 段 
4. 43 演示 了 对 相应 字段 进行 多 值 统计 的 方法 。 


代码 段 4.43: 使 用 stats 聚 合 进行 多 值 统计 

//import 语句, 上 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

StatsAggregationBui lder aggregation= AggregationBuilders 


.stats ("agg") 
.field ("prioe"); 
SearchResponse sr= client .prepareSearch ("it— hame") 
setTypes ("_doc") 
:addnggregaticn (aggregation) 
‘get (); 
Stats agg- sr.getRggregations () .get ("agg") ; 
double min= agg.getMin (); // 求 最 小 值 
double max= agg.getMax (); // 求 最 大 值 
double avg- agg.getAvg(); // 求 平均 值 
double sum= agg.getSum(); // 求 和 
long count= agg.getCount (); 1/ 计数 


for (SearchHit hit : sr.getHits() .getHits()) { 
System.out .printIn (hit.getSourosAsstring()); 
’ 
System.out.println (mint "\t"+ maxt "\t"+ avgt \t"+ sumt \t"+ oount); 
client.close(); 


extended_stats 聚合 则 是 对 一 般 的 stats 聚合 的 功能 扩展 ,可 以 在 上 述 输出 结果 上 添加 
平方 和 ,方差 和 标准 差 等 指标 ,参见 代码 段 4. 44。 
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代码 段 4.44: 使 用 extended stats 聚 合 进行 多 值 统计 
//inmport 语 句 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addimransportattiress (new TransportAddress (InetAddress.getByName 
("localhost"), 9300)); 
.extendedstats ("agg") 
-field ("views"); 
SearchResponse sr= client .prepareSearch ("it— home") 
.SetTypes ("_doc") 
.addAggregation (aggregation) 
.geE()7 
ExtendedStats agg= sr.gethggregations() .get ("agg"); 
double min= agg.getMin(); // 与 上 面 的 多 值 统计 相同 
double max= agg.getMax (); 
double avg= agg.getAvg(); 
double su agg.getSum(); 
long oount= agg.getCount (); 


double stdDeviation= agg.getStdDeviation(); // 慰 准 差 
double sumrDfsquares= agg.getSumDfSquares (); /平方 和 
double variance= agg.getVarianoe (); /方差 


for (SearchHit hit : sr.getHits() .getHits()) { 

System.out .print in (hit .getSouroaAsString()); 
} 
System.out..printIn(mint "Nt"+ maxt "\t"+ avg+ "\t"+ sumt "\t"+ oount); 
System.cut.Println (stdDeviationt \t"+ surmOofSquarest \t"+ varianoe); 
client.close(); 


3. value_count 聚合 
value_count 聚合 是 一 种 单 值 指标 聚合 .用 来 计算 文档 中 某 个 字段 的 统计 数据 。 代 码 段 
4. 45 实现 对 views 字段 执行 value_count 聚合 。 


代码 段 4.45: 使 用 value_count 聚合 进行 计数 

//import 语 句 ,上 略 

TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAcddress (InetAddress .getByName 
("localhost"), 9300)); 

ValueCountAggregationBuilger aggregation= MggregationBuilders 
-count ("agg") 
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.field ("views"); 
.setTypes ("_doc") 
-addnggregaticn (aggregaticn) 


-get(); 


long value= agg.getValue (); 
for (SearchHit hit : sr.getHits() .getHits()) 


F 


Client.close(); 


// 对 价格 统计 每 部 手机 对 应 一 个 价格 ) 
SearchResponse sr= client.prepareSearch ("it— home") 


ValueCount agg- sr.gethggregations () .get ("agg"); 
// 计 数 结果 


System.out.println (hit.getSourceRsString())7 


System.out .printIn("Total numiber is: "+value); 


i 


4.5.2 bucket 聚合 


1. terms 聚合 


terms 聚合 用 于 对 指定 字段 的 内 


容 


进行 分 布 统计 。 在 聚合 过 程 中 会 动态 构建 多 个 


bucket, 并 对 每 个 bucket 计算 出 一 个 特定 的 值 。 代 码 段 4. 46 对 it-home 索引 文件 中 的 访问 


量 分 布 情况 进行 了 统计 。 


代码 段 4.46: 使 用 termms 聚 合 统计 访问 量 分 布 情况 

//import 语 名 ,了 略 

TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 

SearchResponse sr= client .prepareSearch ("it— hame") 


setTypes ("_dbc") 
addaggregaticn (aggregationBuilders // 在 执行 检索 的 代码 中 定义 聚合 
temms ("agg") // 聚 合 的 名 称 
.field("views") // 指 定 统计 字段 
) .get(); 
Tems genders= sr.getRggregations () .get ("agg"); // 获 取 统 计 结 果 


for (Temms .Bucket entry : genders.getBuckets()) { 

System.out .printin (entry.getKeyAsString()+ ": "+ entry-getDocCount ()); 
, 
client.close(); 
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2. range 聚合 

range 聚合 基于 多 个 bucket 完成 指定 范围 内 的 统计 ,在 每 个 bucket 中 定义 一 个 范围 ， 
用 于 统计 指定 字段 在 该 范围 内 的 值 。 在 聚合 过 程 中 ,从 每 个 文档 中 提取 的 值 将 针对 指定 的 
范围 进行 检查 ,并 且 返 回 相关 或 匹配 的 文档 。 代 码 段 4. 47 实现 了 对 it-home 索引 中 views 
字段 的 值 分 别 在 3 个 范围 内 的 数量 统计 。 


代码 段 4.47: 使 用 range 聚 合 进行 指定 范围 的 统计 
//import 语句, 上 略 
// 主 类 定义 , 略 
Private static final LIogger logger= (Logger) LIogManager.getLogger (ClientTest.class); 1/ 用 1o94j2 
记录 日 志 
/hain() 主 方法 定义 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
-addTransportAddress (new TransportAddress (InetPAddress.getByName 
("localhost"), 9300)); 
PggregationBui lder aggregation= AggregationBuilders 
‘range ("agg") 
.field ("views") 
.addUnboundedro(100.0f) // 指 定 0~100 的 范围 
.addRange (200.0f，400.0f) // 指 定 200~400 的 范围 
.addUnboundedFrcm(500.0f)7 // 指 定 500 以 上 的 范围 
SearchResponse sr= client .prepareSearch ("it— home") 
“3etTypes ("_dbc") 
.addnggregaticn (aggregation) 
:get(); 
Range aggr 3r.gethggregations () .get ("agg"); 
for (Range.Bucket entry : agg.getBuckets()) { 


String key= entry.getKeyAsString(); // 范 围 的 类 别 
System.out.Println (key); 

Nunber fram= (Ninber) entry.getFrom(); // 范 围 的 下 界 
System.out.println (fram) ; 

Narber to= (Namber) entry.getTo(); // 范 围 的 上 界 
System.out.println (to) 

long docCount= entry.getDocCount (); // 计 数 


System.out .Println (docCount) 7 

logger.info ("key [{}], from [{}], to [{}], doc_count [切记 录 母 , 坟 rom to，doccount); 
} 
Client.close();client.close(); 
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3. date_range 聚合 
date_range 聚合 是 专门 对 时 间 类 型 的 字段 进行 区 段 统计 的 聚合 。 代 码 段 4. 48 介绍 了 
其 基本 使 用 方法 。 


代码 段 4.48: 使 用 date_range 聚合 进行 多 值 统计 
/Vimport 语 句 , 略 
// 主 类 定义 , 略 
Private static final Iogger logger= (Logger) IogManager.getLogger (ClientTest.class); // 用 1og4j2 
记录 日 志 
/hain() 主 方法 定义 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 
("localhost"), 9300)); 
PggregationBui lder aggregation= AggregationBuilders 
‘dateRange ("agg") 
.field ("publishTime") 
.format ("yyyy— MY dd HH:mm:ss") 
.addRange ("2018- 01- 01 00:00:00", "2018- 07- 01 00:00:00"); // 指 定时 间 范 
SearchResponse sr= client.PrepareSearch("it- home") 
“setTypes ("_doc") 
.addaggregaticn (aggregaticn) 
“geE()7 
Range agg- sr.getRggregations () .get ("agg") ; 
for (Range.Bucket entry : agg.getBuckets()) { 


String key= entry.getKeyAsString(); // 时 间 区 段 
DateTime fromasDater (DateTime) entry.getFram(); // 起 始 时 间 
DateTime taasDate= (DateTime) entry.getTo(); // 截 止 时 间 
long dbcCount= entry.getDocCount (); // 计 数 


logger.info("key [{}], from [{}], to [{}], dpe _oount [{}]", key, framAsDate, toAsDate, docoount); 


} 
client.close(); 


4. histogram 聚合 
利用 histogram 聚合 可 以 根据 返回 值 ( 针 对 数值 型 或 日 期 型 的 字段 ) 生 成 可 创建 柱状 图 
的 聚合 数据 。 代 码 段 4. 49 是 计算 views 字段 以 100 为 步 长 的 各 区 段 的 统计 分 布 情况 。 
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代码 段 4.49: 使 用 histogrem 聚 合 进行 柱状 图 统计 
/inmport 语 句 , 略 
// 主 类 定义 , 略 
Private static final Logger logger= (Logger) IogManager.getIogger (ClientTest.class) 
// 用 1og4j2 记 录 日 志 
/hain() 主 方法 定义 , 略 
TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addrransportadtiress (new TransportRddress (InetPddress.getByName 
("localhost"), 9300)); 
PggregationBui lder aggregation= AggregationBuilders 
-histogram("agg") 
field ("views") 
.interval (100); // 步 长 为 100 
SearchResponse sr= client .prepareSearch ("it— hame") 
.SetTypes ("_doc") 
-addhggregation (aggregation) 
get 0); 
Histogram aggr sr.getRggregations () .get ("agg"); 
for (Histogram.Bucket entry : agg.getBuckets()) { 
Nurber key= (Nurber) entry.getKey(); 
System.cut.println (key); 
long docCount= entry.getDocCount (); 
System.out.println (docCount) 7 
logger.info("key [{}]，doc_count [{}]"，key，docCount); 
} 
client.close(); 


5. date_histogram 聚合 

date_histogram 聚合 是 一 个 增强 型 的 专门 用 于 日 期 型 字段 统计 的 histogram 聚合 , 它 
允许 使 用 year、month、week、day、hour、minute 等 常量 作为 interval 属性 的 取 值 。 代 码 段 
4. 50 实现 了 以 下 聚合 操作 : 在 field 中 填写 一 个 日 期 类 型 的 字段 名 称 ,在 interval 中 填写 一 
个 步 长 值 , 通 过 format 参数 设置 时 间 格 式 。 


代码 段 4.50: 使 用 date _histogram 聚 合 执行 不 同时 间 范 围 的 统计 
//inmport 语 句 , 略 

// 主 类 定义 , 略 

private static final Iogger logger= (Logger) IogManager.getIogger (ClientTest.class); 
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/hain() 主 方法 定义 , 略 


("localhost"), 9300)); 


dateHistogram("agg") 


field ("publishTime") 


.setTypes ("_doc") 


‘get 0); 


key.getYear (), docCount); 
} 
Client.close(); 


TransportClient client— new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAciress (new TransportAddiress (InetAddress.getByName 


PggregationBui lder aggregation= AggregationBuilders 


.dateHistogramInterval (DateHistogramInterval .hours (3)); /| 步 长 为 地 
SearchResponse sr= client.prepareSearch ("it— hamem) 


-addhggregation (aggregaticn) 


Histogram agg= sr.gethggregations () .get ("agg"); 
for (Histogram.Bucket entry : agg.getBuckets()) { 
DateTime key= (DateTime) entry.getKey(); 
String keyAsstring= entry.getkeyAsString(); 
long docCount= entry.getDocCount (); 
logger.info("key [{}], date [{}], doc_oount [{}]", keyAsstring, 


46 ”对 检索 结果 的 进一步 处 理 


4.6.1 控制 每 页 的 显示 数量 及 排序 依据 


在 上 述 例 子 中 多 次 出 现 setFrom() ,setSize() 、setExplain() 子 句 。 这 是 在 搜索 结果 ( 例 
如 prepareSearch 中 ) 通 过 setFrom( 起 始 检索 结果 ) 和 setSize( 每 页 显示 结果 集 ) 等 参数 来 控 
制 显示 数量 的 一 种 方案 ,可 以 实现 对 检索 结果 的 分 页 。 同 时 ,可 以 使 用 setExplain(true) 参 
数 来 设置 是 否 需要 对 文档 的 打分 情况 进行 解释 。 示 例 程序 如 图 4.9 所 示 。 在 图 4.9 下 部 的 
控制 台中 可 以 看 出 ,检索 结果 正常 ,并 给 出 了 文档 的 排序 依据 ,而 这 正 是 setExplain(true) 参 


数 的 作用 。 


4.6.2 基于 scroll 分 页 显示 检索 结果 


既然 能 控制 检索 结果 的 显示 数量 ,就 能 对 检索 结果 进行 翻 页 处 理 。scroll 不 用 于 实时 
请 求 , 而 是 用 于 处 理 大 量 类 似 数据 ,可 以 用 一 个 语句 检索 大 量 甚 至 所 有 的 数据 ,这 与 传统 的 
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QueryBuilder qb = teraQuery( 

6 name “content", 

7e value: "java" 

71 ); 

72 SearchResponse response = client.prepareSearch( ndices “it-home") 
73 .SetTypes(” doc") 

74 ,setSearchTypel SearchType. DFS_QUERY_ THEN_FETCH) 
75 setQuery( qb) 

76 .setFrom( 0) 

7 .setSizel 20) 

78 .setExplain(true) 

79 get(); 

a9 Systen. out.println( response. status()); 


.println(); 


println(response.getHits() .getAt( postion 0) .getExplanation()); 


/usr/jdk1. 8.0 112/bin/java ... 
ok 


如 


，product of: 


男 
un 
自 | 国 " 


324.0 = docFreq 
导 800.0 = docCount 


唱 


109.0 = 


1067.5475 = avgFieldLength 
1304.0 = fieldLength 


NX 


Process finished with exit code 9 


1.9626691 = veight(content:java in 41) [PerFieldsinilarity], result of: 
[= 1.9626691 = scoreldoc=41,freq=109.0 = termFreq=109.0 


0.9035754 = idf, computed as log(l + (docCount - 


命 2.1721144 = tfNorm，computed as (freq * (kl + 1)) / (freq + kl* (1-b+bl 


docFreq + 9.5) / (docFreq 


图 4. 9 检索 数据 并 返回 排序 依据 


使 用 游标 查询 关系 数据 库 的 方法 类 似 。 代 码 段 4. 51 演示 了 基于 scroll 分 页 显示 检索 结果 


功能 的 实现 ,其 中 指定 了 检索 字段 和 关键 词 。 


代码 段 4.51: 基于 scroll 分 页 显示 检索 结果 
/Vinport 语 句 , 略 


("localhost"), 9300)); 
QueryBui lger qhbr temAuery ("ontent", "java"); 
SearchResponse scrollResp= client .prepareSearch() 
.addSort (FieldsortBuilder.DOC_FTEID NAME, SortOrder.ASC) 


ool{ 

for (SearchHit hit : scrollResp.getHits() .getHits()) { 
System.out .print ln (hit.getSourcensString ()) 
} 


TransportClient client= new PreBuiltTransportClient (Settings.FMPTY) 
.addTransportAddress (new TransportAddress (InetAddress .getByName 


// 指 定 字段 和 关键 词 


.setScroll (new TimeValue (60000)) // 设 置 上 下 文 过 期 时 间 tns) 
:SetQuery (dp) 
-SetSize (10) .get (); // 设 置 每 页 显示 的 结果 数量 


// 设 置 排序 方式 
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scrollResp= client .prepareSearchScrol] (scrollResp.getScroll1d()).. 
setScroll (new TimeValue (60000) ) .execute () .actionGet (); 


System.cut.println ("=================================="); 
// 每 页 显示 结果 的 分 隔 线 
} while (scrollResp.getHits() .getHits() .length (=0); // 如 果 后 面 没 有 结果 则 停止 


client.close(); 


在 代码 4. 51 中 ,首先 在 termQuery() 方 法 中 设置 检索 字段 和 关键 词 两 个 参数 ,将 其 赋 
值 给 QueryBuilder 类 的 静态 实例 qb; 在 使 用 scroll 时 ,在 client. prepareSearch() 方 法 中 不 
指定 索引 文件 和 类 型 文件 名 称 , 在 setQuery() 方 法 中 传人 查询 对 象 实例 qb; setScroll( ) 方 
法 中 的 参数 是 过 期 时 间 ,程序 中 设置 的 是 1min,1min 之 后 该 上 下 文 就 不 存在 了 , 需 重 新 构 
建 context, 也 就 是 说 ,在 setScroll() 中 设置 每 一 个 scroll 上 下 文 的 存活 时 间 ;setSize() 方 法 控制 
每 页 显示 结果 的 数量 。 然 后 通过 循环 来 遍历 结果 集中 的 数据 ,具体 实现 是 : 在 for 循环 中 使 用 
response. getHits(). getHits() 方 法 遍历 检索 结果 集 , 在 循环 体 中 使 用 getSourceAsString() 将 每 
条 检索 结果 显示 出 来 。 在 for 循环 之 后 ,使 用 scrollResp. getScrollId() 来 获取 此 次 检索 结果 
的 scrollID。 此 时 循环 中 的 client. prepareSearchScroll() 方 法 可 以 利用 获取 的 scrollID 进行 
二 次 搜索 ,并 返回 结果 。 代 码 段 4. 51 的 执行 结果 如 图 4. 10 所 示 。 


": "详解 ] ava 面 试题 中 的 ++ 和 ++1", "url" 1 
RL ona ee et wurl™ -ho 
":"C# 中 的 函数 式 编程 : 序言 (一) ", "url":"http; si hone orq/thread-1b2S23-1-2. 
":"C# 程序 之 同 传 参数 ，Args 入 收 娄 的 处 “url":"http; Lbs At hoe pr/ thread tad- - 
": "CH 服务器 缮 生成 报告 文档 : 使 用 栅 软 报表 生成 Word- pdf 要 各， “url sh 
es 基于 Json 闻 化 和 反 序 天 化 通用 的 间 半 完 束 代 到 ， url" p 

"C# 泛 型 类 创建 与 使 用 的 方法 ", "url" 
“;"C# Net CDF 文 件 64 位 访 取 " "url": " 
": "HttpHelper 类 的 词 用 方法 详解 ”， ;http /jbbs. it hone.org/thread-100673-1-3. 
":"C# 使 用 Redis 的 基本 操作 *, "url to dat orq/thread-100686-1-3.html" 


": "asp.net MVC 下 使 用 rest 的 方法 ", "ui i//bbs,it-hone org/thread-98103-1- 

"java 单 全 模式 ( 坟 六 人 式 与 汉 术 大) ， , ut :"htt bbs ,it-home ,or hr ad- 981 
IS- SDK 分 可 功能 的 .Net 实现 代码 ", "url”: "I -home ,or - -14 
";"C# 事 件 实例 详解 ", “url” ,it-home.org/thr' 1 ah "content" 


图 4.10 分 页 显示 检索 结果 


47 Java High Level RESTfu Qient 和 Blasticsearch DSL 


4.7.1 Java High Level RESTful Client 


使 用 Java 以 RESTful 风格 向 Elasticsearch 提交 请 求 , 是 Elasticsearch 6.0 开始 加 入 的 
新 特性 。Java High Level RESTful Client 比 TransportClient 方式 更 简单 易 用 ,以 传 参 的 形 
式 接 收 请 求 ,与 Elasticsearch 交互 并 返回 响应 结果 。 该 组 件 依 赖 于 Elasticsearch, 在 应 用 中 


人 
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可 以 接收 与 TransportClient 相同 的 参数 ,并 返回 与 之 相同 的 响应 信息 。 

调用 Java High Level RESTful Client 需要 加 载 特定 的 JAR 包 , 然 而 这 些 JAR 包 并 不 
在 Elasticsearch 的 安装 目录 下 ,此 时 可 以 通过 Maven 来 自动 获取 。 代 码 段 4. 52 展示 了 在 
pom. xml 配置 文件 中 写 入 的 配置 信息 。 其 中 的 6. 2. 4 为 本 例 使 用 的 Elasticsearch 版 本 , 读 
者 可 以 根据 实际 情况 进行 修改 。 


代码 段 4.52: 在 pam.xml 配 置 文件 中 写 入 的 配置 信息 

< dependency> 
< groupId> org.elasticsearch.client< /groupId> 
<artifactId> elasticsearch- rest- high- level- client< /artifactId> 
<Vversicn> 6.2.4 /version> 

< /dependency> 


可 通过 手动 加 载 JAR 包 的 形式 来 导入 依赖 , 即 在 http://maven. aliyun. com 中 获取 
elasticsearch-rest-client-6. 2. 4. jar 包 和 elasticsearch-rest-high-level-client-6. 2. 4. jar 包 , 然 
后 将 其 导入 开发 平台 的 library 中 。 

下 面 针 对 Elasticsearch 索引 和 搜索 等 方面 的 功能 ,对 Java High Level RESTful Client 
的 应 用 进行 介绍 。 使 用 该 组 件 创建 新 索引 文件 example 的 示例 代码 如 代码 段 4. 53 所 示 ,其 
中 包含 了 创建 HTTP 连接 对 象 .创建 索引 ,设置 索引 分 片 和 副本 、 为 索引 设置 映像 ,执行 并 
查看 执行 结果 等 功能 。 


代码 段 4.53: 创建 索引 文件 
/Vinport 语 句 , 略 
RestHighlevelClient client= new RestHighrevelclient( 
Restclient.builder (new HttpHost ("localhost", 9200, "http"))); 
// 这 里 连接 HEmTP 的 00 端口 
CreateIndexRequest. request= new CreateIndexRequest ("exarple"); 
// 创 建 名 为 example 的 索引 文件 
Tequest.settings (Settings.builder() 


.Put ("index.nunber of shards", 2) // 设 置 分 片 数量 
.Put ("index.nunber of replicas" 2) // 设 置 副本 数量 

); 

request .mapping ("_doc", // 设 置 映像 ,参数 为 usoN 格 式 
”fn 


doo: (An 
. \"properties\": fn 


| 
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本 Necontent\": {\n"+ 

时 \"type\": \"text\"\n"t 
Nn 

师 Nn™ 

Mn 


A 号 

XContentType.JSON) ; 

CreateIndexResponse createIndexResponser client..indioes() .create (request); // 执 行 创建 
boolean acknowledged= createIndexResponse.isAcknowledged (); // 查 看 执行 结果 
System.out.print ("acknowledged: "+ acknowledgedt ", "); 

boolean shardsAcimowledged= createIndexResponse.isShardsAcknowledged (); 

System.out.println ("shardsAcimowledged: "+ shardsAcknowledged) ; 

client.close(); 


在 已 有 的 索引 中 , 按 特 定 id 号 查询 数据 的 操作 如 代码 段 4. 54 所 示 。 其 中 GetRequest 
类 的 实例 需要 传人 3 个 参数 : 索引 文件 名 、 统 一 的 类 型 文件 名 和 文档 的 id 号 。 后 面 获取 查 
询 结果 的 代码 与 TransportClient 相似 。 


代码 段 4.54: 按 文档 的 志 号 查询 数据 

/Vimport 语 句 , 略 

RestHighrevelclient client= new RestHighrevelclient ( 
RestClient.builder (new HttpHost ("localhost", 9200, "http"))); 

GetRequest getRequest= new GetRequest ( 


"it— hame", // 要 查询 的 索引 文件 名 
”doc // 统 一 的 类 型 文件 名 
"6c8ssmMEnrMkTesldrkBc) ; // 要 查询 的 记号 


GetResponse getResponser client.get (getRequest); 

if (getResponse.isExists()) { 
Map< String, Chject> sourosAsMap= getResponse.getSourceRsMap (); // 获 取 查 询 结果 的 哈 希 表 
String title= sourcensMep.get("title") -toString()7 // 获 取 查询 结果 数据 
String editorNamer sourceAsMap.get ("editorName") .toString(); 
String publishTime= souroaAsMap.get ("publishTime") .toString(); 
System.cut.println (titlet "\n"+ editorNamet "\n"+ publishTime); 

} else { 
System.out.printin(" 查 询 操作 发 生 错 误 .。"); 

} 

client.close(); 


下 面 给 出 使 用 query DSL 执行 全 文 检索 的 示例 代码 。 在 索引 文件 ithome 中 搜索 标题 


六 
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中 含有 “程序 员 ” 字 符 串 的 全 文 检索 程序 如 代码 段 4. 55 所 示 ,该 段 代码 由 创建 搜索 ,指定 搜 
索 详 细 配 置信 息 、 设 置 高 亮 字段 执行 搜索 和 获取 高 亮 字段 搜索 结果 信息 等 部 分 构成 。 


代码 段 4.55: 搜索 标题 中 含有 “程序 员 " 字 符 串 的 文档 
/Vinport 语 句 , 略 
FestHighrevelclient client= new RestHighLevelclient( 

RestClient. .builger (new HttpHost ("localhost", 9200, "http"))); 


SeardhRequest. searchRequest— new SearchRequest ("it— home") ; // 指 定 索 引文 件 名 
SeardhSouroeBui lder sourosBuilder= new SearchSouroeBuilder (); // 开 始 构 建 搜索 
sourceBuilder.query (QueryBuilgers.matchouery ("title", 喔 序 员 ")); 

// 指 定 全 文 检索 的 内 容 
sourceBui lger.fram(0); // 指 定 查 询 结 果 的 起 始 位 置 
sourosBui lger.size (5); // 指 定 查 询 结 果 的 数量 
souroeBui lder.sort (new FieldSortBui lder ("views") .order (SortOrder.ASC) ); 

// 指 定 排序 方式 
String[] includeFields= new String[] {"title", "editorName", "piblishTime"}; 

// 指 定 结果 中 要 保留 的 字段 
String[] excludeFields= new String[] {" type"}; // 指 定 结果 中 要 排除 的 字段 


souroeBui lder.fetchSouroe (includeFields, excludeFields); 
HighlightBuilger highlightBuilder= new HighlightBuilger (); 
HighlightBuilder.Field highlightTitle- new HighlightBuilger.Field ("title"); 
// 指 定 高 亮 字段 

highlightTitle.highlighterType ("unified"); 
highlightBuilder.field (highlightTitle); 
HighlightBui lder.Field highlightEditor= new HighlightBuilder.Field ("editorName") ; 
highlightBuilder.field (highlightEditor); 
souroeBui lder.highlighter (highlightBuilder); 
SearchSourosBui lder searchSourosBuilder= new SearchSourosBui lger (); 
3earchRequest. .souroe (sourosBui lder); 
SearchResponse searchResponse= client .search (3earchRequest); // 开 始 搜索 
SearchHits hits= searchResponse.getHits(); // 处 理 搜索 结果 
SearchHit[] searchHits=hits.getHits(); 
for (SearchHit hit : searchHits) { 

Map< String, HighlightField> highlightFields= hit.getHighlightFields () 

/获取 高 亮 字段 的 搜索 结果 

HighlightField highlight— highlightFields.get ("title"); 

Text [] fragrents= highlight.fragrents(); 

String fragmentString= fragments[0] .string(); 


~、 
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4.7.2 Elasticsearch DSL 


Elasticsearch DSL 是 Elastic 公司 提供 的 使 用 Python 实现 的 High Level 库 , 目 的 是 方 
便 编写 和 运行 Elasticsearch 的 查询 语句 。Elasticsearch DSL 的 安装 比较 简单 ,这 里 给 出 基 
于 pip 的 安装 命令 : 

安装 成 功 后 , 便 可 进入 Python 环境 ,导入 Elasticsearch DSL。 下 面 对 Elasticsearch 
DSL 提供 的 API 给 出 一 个 查询 和 聚合 实例 。 

代码 段 4. 56 首先 创建 客户 端 ,创建 match 查询 语句 ,查询 条 件 为 os 是 Window 7 的 日 
志 , 然 后 在 查询 结果 集中 进行 聚合 , 找 出 日 志 长 度 最 小 值 。 


代码 段 4.56: 查询 os 为 Windows 7 的 请 求 日 志 , 并 在 结果 集中 找 出 日 志 长 度 最 小 值 
fram elasticsearch dsl] import Search 
fram elasticsearch import Elasticsearch 
es _client= Elasticsearch() 
searchr Search (using= es_client, index= 'whale', doc_type= 'l0g')\ // 创 建 查询 语句 
-query ("match", os= "Windows 7") 
search.aggs.bucket (min size', ‘min', field= "1og size") 
Print (search.to dict()) // 将 查询 对 象 转 为 字典 并 输出 
response— search.execute() // 执 行 搜索 语句 
for hit in response: 
Print (hit.log size， hit.os) 
for tag in response.aggs: 
Print (tag) 


在 图 4.11 中 ,第 一 行 是 查询 语句 ,可 参照 第 3 章 的 内 容 进 行 理 解 ;中 间 部 分 是 输出 的 查 
询 结 果 ; 最 后 一 行 输 出 对 查询 结果 集 进行 聚合 的 结果 。 

通常 在 开发 应 用 程序 时 会 首先 创建 数据 模型 ,然后 可 对 数据 进行 增 、 删 查 、 改 操作 。 在 
Elasticsearch DSL 中 提供 了 类 似 的 方法 ,允许 用 户 定义 数据 模型 并 与 索引 文件 中 的 字段 一 
一 映射 。 代 码 段 4. 57 首先 创建 了 索引 文件 whale 的 数据 模型 类 (设置 的 字段 应 与 索引 文件 
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查询 语句 ，{"query": {"match': {"os': ‘Windows 7'}}, ‘aggs': {'min_size’: {"min'": {'field': ‘log_size'}}}} 


查询 结果 ， 

log size:284 os:Windows 7 
log size:54 os:Windows 7 
log size:462 os:Mindows 7 
log size:262 os:Windows 7 
log size:329 os:Windows 7 
log size:317 os:Windows 7 
log size:394 os:Windows 7 
log size:75 os:Windows 7 
log size:481 os:Windows 7 
log size:146 os:Windows 7 


日 志 长 度 最 小 值 : 
{"value': 54.0} 


图 4.11 查询 输出 内 容 


中 的 字段 保持 一 致 ), 使 用 init() 方 法 可 以 设置 whale 的 映像 ,用 简洁 的 方式 实现 了 对 id 号 
为 1 的 文档 数据 的 操作 。 


代码 段 4.57: 利用 数据 模型 对 数据 进行 操作 
fram elasticsearch dsl import DocType, Long, Keyword 
fram elasticsearch dsl.connections jimport oonnections 
connections.create_connection (hosts= ['localhost']) // 创 建 连接 
class Whale (DocType) : // 创 建 索引 文件 whale 的 数据 模型 类 
http method- Keyword() 
status oode=Icng() 
os Keyword() 
log size= Iong() 
custam ip= Keyword() 
uri= Keyword() 
timestanp= Keyword() 
class Meta: // 设 置 元 信息 ,可 设置 索引 文件 名 和 类 型 文件 名 
index= ‘whale' 
Goc typer "1og" 
Whale.init () /必须 执行 init () 方 法 初始 化 whale 的 映像 
whale=Whale (meta= {"'id': 1}, 
http method= 'GET', 
status_code= '200', 
os= "Ubuntu 16.04", 
log size= 129, 
custom ip= "192.168.0.29", 
uri= "/test.html", 
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timestamp= "08/11/2018 11:08:00") 
whale.save()// 保 存 上 一 步 创建 的 日 志 信 息 
print (whale.to dict()) 
whale=Whale.get (id= "1")// 获 取 过 号 为 1 的 文档 数据 
Print (whale.to dict()) 


whale.update (http method= 'FOST', status oode= 404) /更 新 i 号 为 1 的 文档 的 部 分 数据 
Print Whale.get (id= "1") .to gict()) 


‘ 

Whale 模型 数据 类 中 的 timestamp 字段 本 应 该 是 Date 类 型 ,但 由 于 
Elasticsearch DSL 6. 1 未 实现 在 请 求 数据 时 对 Date 类 型 的 字段 进行 格式 化 操作 的 功 
能 ,所 以 ,在 请 求 时 ,该 字段 会 被 格式 化 为 Elasticsearch 默认 的 日 期 时 间 格 式 , 这 会 与 之 
前 在 Elasticsearch 中 设置 的 日 期 时 间 格 式 发 生 冲 突 ,导致 添加 失败 。 因 而 ,代码 段 4.57 
将 timestamp 设置 为 Keyword 类 型 ,保证 其 日 期 时 间 格 式 在 请 求 过 程 中 不 会 被 修改 ,从 
而 实现 了 添加 数据 的 功能 。 


48 皇 倒 


下 面 介绍 一 个 基于 网 络 息 虫 WebMagic( 它 是 一 个 无 须 配 置 , 便 于 二 次 开发 的 息 虫 框 
架 ) 采 集 新 闻 数据 ,并 利用 Elasticsearch 完成 信息 索引 、 检 索 的 实例 , 它 主 要 分 4 个 部 分 : 

(1) 使 用 WebMagic 定制 仆 虫 , 抓 取 新 闻 数据 。 

(2) 在 对 获取 的 新 闻 数 据 进行 一 定 的 处 理 后 存 人 Elasticsearch, 并 对 新 闻 数 据 建 立 倒 
排 索引 。 

(3) 根据 用 户 在 前 台 页 面 输入 的 查询 关键 字 , 在 后 台 的 Elasticsearch 索引 库 的 指定 字 
段 完 成 查询 。 

(4) 传送 用 户 检索 的 新 闻 数 据 以 及 推荐 的 相关 数据 到 前 台 。 

限于 篇 幅 , 这 里 主要 介绍 在 Elasticsearch 中 的 索引 ,检索 等 内 容 的 实现 。 


4.8.1 在 Elasticsearch 中 建立 索引 


Elasticsearch 规定 ,一 般 情况 下 ,索引 文件 被 创建 好 之 后 是 不 允许 修改 的 。 为 了 确保 索 
引文 件 及 类 型 文件 中 映像 的 正确 无 误 , 需 要 在 使 用 爬虫 获取 新 闻 数 据 之 前 事先 为 
Elasticsearch 建立 一 个 映像 。 代 码 段 4. 58 演示 了 为 ifeng 索引 文件 手动 配置 映像 的 代码 。 
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该 段 代码 可 以 直接 放 入 head 工具 的 复合 查询 窗口 中 执行 ,在 索引 文件 的 位 置 只 填写 ifeng 
即 可 。 


代码 段 4.58: 为 ifeng 索 引文 件 配置 映像 
curl - XEUT localhost:9200/ifeng -ad '{ 


"mappings": { 
maocns { 
"properties": { 

"url: { 
Eee iywa" 

和 

"title": { 
"type": "text", 
"index": true, 


"analyzer": "ik max word" 
小 
"EublishTime": { 
"type": "date", 
"fomrat": "yyyy 年 M 月 dd 日 HH:mm:ss||yyyy 年 M 月 日" 
}, 
"content": { 
"type": "text", 
"ingdex": true, 
"analyzer": "ik max word" 


4. 8.2 连接 Elasticsearch 


新 建 一 个 名 称 为 ESClientHelper 的 类 ,目的 是 完成 Elasticsearch 的 客户 端 实例 化 工 
作 。 这 里 采用 基于 TransportClient 的 方式 ,可 以 通过 调用 addTransportAddress() 方 法 添 
加 节点 ,如 代码 段 4. 59 所 示 。 其 中 client 实例 的 初始 化 代码 写 在 了 一 个 static 块 中 ,实际 运 
行 时 ,该 实例 将 常 驻 内 存 , 以 提高 Elasticsearch 客户 端的 响应 速度 。 
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代码 段 4.59: 基于 Transportclient 的 方式 初始 化 客户 端 
//import 语句 , 略 
Public class ESClientHelper { 
Public static TransportClient client; 
static { 
try{ 
Client= new PreBuiltTransportClient (Settings.FMPTY) 
-addTransportAddress( 
TEw TransportPctiress (InetAddress.getByNeme ("localhost"), 9300)); 
} catch (UnknownHostExosption e) { 
eprintStackTrace (); 
} 


4.8.3 信息 采集 与 索引 构建 


WebMagic 模块 分 为 Spider .Downloader、PageProcessor、Scheduler、Pipeline 等 多 个 部 
分 。 用 户 可 以 通过 定义 相关 模块 的 接口 ,并 将 其 
不 同 的 实现 注入 主 框架 类 Spider 来 实现 相关 的 信 Cen) 
息 采 集 功 能 。 其 结构 如 图 4. 12 所 示 。 其 中 ， 
Spider 类 是 候 虫 框架 的 核心 组 件 ,其 接口 调用 采 
用 了 链 式 的 API 设计 ,其 他 功能 全 部 通过 接口 注 | [i SS 
入 Spider 实现 ;Downloader 负责 页 面 下 载 (使 用 Pogé Roqueet 
HttpClientDownloader 下 载 网 页 ) ; PageProcessor Pegs 
负责 页 面 分 析 及 链接 抽取 ,这 里 说 的 页 面 分 析 主 hs 
要 指 对 HTML 页 面 的 分 析 , 通 过 编写 一 个 实现 
PageProcessor 接口 的 类 可 定制 息 虫 ,而 页 面 抽取 
最 基本 的 方式 是 使 用 XPath;Scheduler 负责 URL 去 重 等 管理 工作 ;Pipeline 可 实现 抽取 结 
果 的 持久 化 (例如 序列 化 到 数据 库 中 ,甚至 将 其 保存 到 基于 键 - 值 对 的 缓存 中 )。 

在 构建 完 怜 虫 后 ,已 实现 了 从 Internet 获取 信息 的 目的 ,但 它们 需要 持久 化 到 索引 文件 
中 。 在 4.1 节 中 已 完成 Elasticsearch 的 客户 端 实例 化 工作 (让 抓 取 的 数据 存储 在 名 为 news 
的 索引 库 中 ) 。 这 里 为 表述 方便 ,在 head 工具 中 手动 创建 名 为 news 的 索引 库 。 在 本 索引 
库 中 需要 用 到 的 字段 和 说 明 如 表 4. 1 所 示 。 


Spider Scheduler Request | HTTP 


图 4.12 WebMagic 模块 的 结构 
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表 4.1 news 索引 库 主要 字段 说 明 


字段 名 作用 及 描述 字段 名 作用 及 描述 
id 文档 编号 ,由 Elasticsearch 自动 生成 | content 抓 取 新 闻 正文 内 容 
title 抓 取 的 新 闻 标题 url 抓 取 的 新 闻 页 面 URL 
publishTime | 抓 取 的 新 闻 发 布 时 间 


下 一 步 工作 是 在 浏览 器 中 使 用 开发 者 工具 解析 网 页 ,实现 WebMagic 的 PageProcessor 
接口 并 重 写 process() 方 法 ,再 配合 XPath 解析 式 即 可 获取 相应 的 新 闻 标 题 ,URL、 正 文 及 
标签 等 ,其 核心 实现 如 代码 段 4. 60 所 示 , 其 中 的 page 对 象 是 重 写 process() 方 法 时 传人 的 
参数 。WebMagic 已 经 写 好 抽取 网 页 内 容 的 Page 类 ,直接 实例 化 作为 参数 即 可 。getHtml() 
以 及 下 面 的 getUrl() 和 smartContent() 是 WebMagic 中 已 经 写 好 的 方法 ,直接 调用 即 可 。 


代码 段 4.60: 实现 PageProcessor 接口 ,解析 新 闻 网 页 
// 解 析 网 页 得 到 的 新 闻 URL 
String url= Page.getUrl () .get (); 
// 解 析 网 页 得 到 的 新 闻 标题 
String title= null= = page.getHtml () .xpath ("//hl[@ id= 'artical topic']/ 
text ()") .tostring() ? 
Page.getHtml () .XPath ("//hl/text ()") -toString() : 
Page.getHtml () .3Path ("//hl [@ id- 'artical topic']/text()") .tostring(); 
// 解 析 网 页 得 到 的 新 闻 发 布 时 间 
String publishTime= null==page.getHtnl () .xbath("//p[Q@ class= 'P_ time']/span/text()") .tostring() ? 
Page.getHtml () .xpath ("//div[@ class= "hdpTit clearfix']/div[1]/p/span/text ()") .tostring() : 
Page.getHtml () xpath ("//p[@ class= 'p_time']/span/text ()") .toString(); 
// 使 用 框架 中 的 功能 自动 获取 新 闻 正 文 内 容 
String content= Page.getHtml () .smartContent () .toString(); 


考虑 到 处 理 速度 ,可 使 用 JSON 数据 交换 格式 。 在 上 面 的 工作 中 已 经 抓 取 了 新 闻 的 标 
题 \ 正 文 以 及 标签 。 在 这 一 步 首先 调用 jsonBuilder() 方 法 把 获取 的 结果 集 转换 为 JSON 格 
式 ,然后 使 用 Gson 类 下 的 toJson() 方 法 传人 相应 参数 ,完成 把 抓 取 的 数据 转换 为 JSON 格 
式 并 写 进 数 据 库 的 工作 。 具 体 方法 如 代码 段 4. 61 所 示 ,此 例 中 使 用 prepareIndex() 方 法 建 
立 索 引 , 并 在 setSource() 方 法 中 利用 第 二 个 参数 指定 了 输入 数据 的 格式 为 JSON。 
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代码 段 4.61: 将 抓 取 到 的 数据 持久 化 到 Elasticsearch 的 索引 库 中 
//import 语 句 , 略 

ESClient esClient= new FSclient (); 

Client client=esclient .getclient (); // 得 到 与 Elasticsearch 链 接 的 实例 
// 解 析 网 页 的 代码 , 略 

Map< String, Object> map= new HashMap< > (); 

map-put (url"， url); 

map-put ("title", title); 

map.Put ("publishTime", publishTime); 

map-put ("oontent", oontent); 

String s= new Gecn () .toJson (map) ; // 把 获取 的 网 页 内 容 转 换 为 SN 格式 
IndexResponse response= client .prepareIndex ("ifeng", "_doc") .setSource (s, XContentType.JSON) .get (); 
// 把 转换 后 的 JSON 数 据 存 人 ifeng 索 引 库 中 


程序 执行 后 返回 head 并 刷新 ,发 现 库 中 已 添加 了 publishTime、title、url、content 等 需 
要 抓 取 的 数据 列 名 ,这 相当 于 传统 数据 库 中 的 各 个 字段 。 各 个 列 下 存储 的 就 是 抓 取 的 信息 ， 
如 图 4.13 所 示 。 


查询 5 个 分 片 中 用 的 5 个 . 942 命中 . 耗 时 0.010 秒 

| Score Publsnnme [ea [Ey 

Weng _doc  pZINOGMBINVO94W7bC34 1 2018 年 06 月 04 日 09:01:31 1 年 7 次 约会 4 进 酒店 ! 赵 丽 颖 冯 绍 峰 发 的 糖 帮 要 时 牙 了 httpJ/entteng.comva/20180| 
ieng _doc Vv5INOGMBINVO94WTIC3 1 2018 年 06 月 05 日 16.15:44 张 一 山 也 教 不 了 新 《家 有 /儿女 》 htpJlent teng com/a/20180| 
eng doc WTNOGMBINVO94WTISOe 1 2018 年 06 月 05 日 13:51:09 《101》' 隐 藏 版 淘汰 规定 "禁用 手机 情 与 异性 接触 。。 httpylentifeng comya/20180| 
ifeng _doc  qp7NOGMBINVOG4W7c0Q 1 2018 年 06 月 04 日 07:50:38 明星 收入 究竟 有 多 高 ， 都 有 哪些 过 税 手段? hapVentleng.corval20180| 
teng doc 0Z7NOGMBthV094wTnS1Z 1 2018 年 06 月 05 日 16:19:06 压 商 口 要 送 豪 宅 给 太太 ， 婚 娩 不 稳 改 送 自己 老 妈 了 ..。 httpJent teng.coma/20180| 
eng _doc 3Z7INOGMBthVO94w7sC30 1 2018 年 06 月 05 日 11:19:23 《天 下 第 一 镖局 》 强 先导 海报 预告 功夫 高 手 联 实 打造 。 “httpJentteng.comva/20180| 
Heng _doc op7NOGMBthV094w7aClb 1 2018 年 06 月 04 日 15:00:48 部 玻 明 一 身 名 牌 吕 气 充 相 机 场 网 友 : 穿 出 了 童装 味道 。 httpyientifeng comya/20180| 
ifeng _doc 057NOGMBthV094w7oS0- 1 2018 年 06 月 05 日 11:11:53 《家 有 儿女 初 长 成 》 张 一 山 为 爱 病 狂 甘心 当 保姆 htpyientleng comywy20180| 
Weng -doc 。 wWZTNOGMBHV094wTIC3Y 1 2018 年 06 月 05 日 14.23.32 《新 歌声 》 海 选 评委 称 导师 周杰伦 的 歌曲 没 管状 hapyientleng .comva/20180| 
ifeng _doc Ww57NOGMBINVO94W7IS30 1 2018 年 06 月 05 日 12:48:56 《足球 吧 少 年 强 》 名 单 出 炉 名 党 队长 关 晓 彤 现场 送 祝福 ”httpJent feng.comva/20180| 
teng toc x57NOGMBINV094w7kilz 1 2018 年 06 月 05 日 19:38:24 34 岁 香港 视 帝 被 蝎 离 婚 ， 做 这 件 事 让 老 彼 更 加 赛 心 htpent eng.coma/20180| 
Heng _doc yp7NOGMBthV094wTI3P 1 2018 年 06 月 05 日 18.41.28 精子 否认 签署 7.5 亿 阴阳 合同 : 从 未 威 功 过 崔永元 hapyentifeng.comva/20180| 
teng oc JpINOGMBINVO94W7 y7L 1 2018 年 05 月 07 日 15:19.46 人 气 负 像 现 身 配 男 火爆 苏州 竟然 不 敌 网 红 实 力 抒 镜 hipyientileng comyay20180| 
ieng _doc 657NOGMBthV0g4w7wyls 1 2018 年 06 月 05 日 1435.07 范冰冰 和 成 龙 旧 雪 被 扒 因为 一 个 动作 被 网 友 吕 惨 了 httpJlentifeng comval20180| 
ifeng _doc 4p7NOGMBthV094w7uC2R 1 2018 年 06 月 05 日 08:45:13 《 退 罗 决 : 九 神 战 甲 》 定 档 6.29 泰 源 动画 点 燃 今夏 htpyientileng.comyay20180| 
ifeng _doc 5p7NOGMBthV094w7vilY 1 2018 年 06 月 05 日 13.01;43 付辛博 为 好 爱 大 自 唱 家 庭 地 址 和 电话 网 友 : 有 勇气 ! hipJientileng comw20180] 
Heng doc 757NOGMBINVO94W7yC3K 1 2018 年 06 月 05 日 13:43:01 崔永元 纸 汉 小 刚 洛杉矶 有 两 套房 产 :当面 一 套 背后 一 套 。 httpylentileng.corya/20180| 
ieng _doc Bp7NOGMBthV094w7zS2z 1 2018 年 06 月 05 日 07:.1106_6 岁 的 小 七 证 制服 上 学 紧 紊 贝 媳 手 抬头 对 视 太 湿 欧 htpyentileng coma/20180| 


图 4.13 索引 库 中 的 数据 


4.8.4 搜索 模块 


本 节 使 用 Java High Level RESTful Client 构造 一 个 检索 请 求 。 首 先 ,使 用 RestHighLevelClient 
实例 化 对 象 的 SearchRequest() 方 法 设置 索引 名 称 ,然后 在 sourceBuilder. query() 方 法 中 填 
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入 具体 查询 方法 的 参数 。 这 里 使 用 SearchSourceBuilder 类 的 实例 来 构建 查询 。 在 from() 
和 size() 方 法 中 填写 对 索引 库 进行 检索 的 游标 开始 位 置 和 返回 结果 集 的 总 数 , 最 后 使 用 
SearchResponse 类 的 实例 来 处 理 搜 索 结 果 , 如 代码 段 4. 62 所 示 。 


代码 段 4.62: 在 news 索引 库 中 检索 数据 的 实现 
//import 语 句 , 上 略 
RestHighlevelClient client= new RestHighLlevelClient ( 

RestClient .builger (new HttpHost ("localhost", 9200, "http"))); 
SearchRequest. searchRequest= new SearchRequest ("ifeng"); 
SearchSouroeBui lder sourosBuilder= new SearchSourosBuilger (); 
sourosBuilder.query (QueryBuilders.wildcardouery ("title", "* 周杰伦 * ")); 
SourcePuilder.from(0) 7 
souroeBui lder .size (5); 
searchRequest. .souroe (30uroeBui lder); 

SearchResponse searchResponse= client.search (searchRequest); 

SearchHits hits= searchResponse.getHits(); 

SearchHit[] searchHits=hits.getHits(); 

for (SearchHit hit : searchHits) { 
System.out.println (hit .getSourosAsString()); 

} 

client.close(); 


”:”《 新 歌声 》 ee ee 


结合 实际 需要 ,这 里 用 到 了 wildcardQuery() 
…:" 必 深 与 助手 闪 " 情 但 革 ” 
六 抽风 


方法 。 采 用 “通配符 ”十 “关键 词 "十 “通配符 ”的 形 ptte:-ae 

titte" 分 头 新 造型 意外 撞 验 蔡依林 " 天 菜 “ 孔 刘 ", "ur 
式 ,可 满足 用 户 输入 任意 关键 词 均 能 检索 信息 的 要 2 全 和 
求 。 图 4.14 是 当 搜索 关键 词 为 “周杰伦 ”时 在 控制 图 4.14 搜索 结果 
台 显 示 的 部 分 结果 。 


4.8.5 推荐 模块 


新 闻 网 站 往往 有 相关 新 闻 推 荐 功能 。 这 里 也 可 以 通过 moreLikeThisQuery() 实 现 , 可 
通过 它 查 询 到 与 当前 查询 到 的 文本 相似 的 文档 返回 给 用 户 , 如 代码 段 4. 63 所 示 。 


代码 段 4.63: 使 用 moreLikerhispuery() 方 法 实现 推荐 功能 
//inmport 语 句 , 略 
String[] fields= {"title", "ontent"}; 
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String[] texts= {音乐 力作 正式 启 航 ")}; 
MoreLikeThisQueryBuilgder.Item[] items=null; 
QeryBui lger do= moreLikeThisQuery (fields, texts, items) 
minTemrFreq(]) 
-maxQueryTerms (12) ; 
SearchResponse response= ESClientHelper.client .prepareSeardh ("ifeng") 
.setTypes ("_doc") 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
-setRuery (qb) 
.SetFram(0) 
.setsize (5) 
.setExplain (true) 
‘get(); 
for (SearchHit hit : response.getHits() .getHits()) { 
System.out .print ln (hit.getSouroaAsString()); 
} 


与 查询 相 类 似 , 在 moreLikeThisQuery(fields, texts, items) 中 填 入 的 参数 分 别 表示 要 
检索 的 字段 .文本 和 词 项 。 图 4. 15 列 出 的 结果 是 基于 一 篇 关于 流行 音乐 出 版 发 行 的 新 闻 推 
荐 的 部 分 结果 。 


图 4.15 推荐 结果 


4.8.6 ”聚合 模块 


在 ifeng 索引 库 中 ,不 同 发 布 时 间 的 新 闻 数 量 不 同 。 这 里 可 以 通过 聚合 的 方法 对 不 同 
发 布 时 间 的 新 闻 进 行 统计 。 代 码 段 4. 64 实现 了 对 其 中 的 新 闻 数 据 按 月 进行 数量 统计 的 功 
能 。 聚 合 结果 如 图 4. 16 所 示 ,该 结果 给 出 了 每 个 月 内 发 布 的 新 闻 数 量 。 在 以 后 的 工作 中 ， 
这 些 数据 可 以 用 来 绘制 每 月 发 布 新 闻 数 量 的 统计 图 表 。 


代码 段 4.64: 使 用 date histogrem 聚 合 执行 每 月 新 闻 数 量 统计 

//inport 语 句 , 略 

// 主 类 定义 , 略 

Private static final Logger logger- (Logger) LogManager .getlogger (ClientTest.class) 7 
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// 主 方法 rain0) 定 义 , 略 
dateHistogram("agg") 
-field ("publishTime") 
SearchResponse sr= ESClientHelper.client.prepareSearch ("ifeng") 
“setTypes ("_doc") 
-addnggregation (aggregaticn) 
-get ()7 
Histogram agg= sr.getRggregations () .get ("agg"); 
for (Histogram.Bucket entry : agg.getBuckets()) { 
DateTime key= (DateTime) entry.getKey(); 
String keyAsString= entry.getKeyAsString(); 
long docCount= entry.getDocCount (); 
logger.info ("key [{}], date [{}], doc_ count [{}]", keyAsString, 
key.getYear (), docCount); 


// 步 长 为 1 个 月 


，date [2017], doc_count [18] 
，date [2017], doc_count [34] 
, date [2017], doc_count [41] 
, date [2918] ，doc_count 【58] 


00] 
key 【2918 年 93 月 91 日 00:00:00] , 


] ,date [2018], doc_count [40] 
] ,date [2018], doc_count [59] 


key 【2918 年 04 月 91 日 900:00:00], date [2018] ,doc_count [72] 
key 【2018 年 05 月 01 日 00:00:00] ，date [2018] ，doc_count [174] 


key 【2018 年 96 月 91 日 00:00:00], date [2018], doc_count [263] 


Process finished with exit code © 


图 4.16 聚合 结果 


49 扩展 知识 与 阅读 


众所周知 ,中 文 词法 分 析 是 中 文 信息 处 理 的 基础 与 关键 。 在 Java 客户 端 设 计 全 文 检 索 


程序 时 ,往往 需要 指定 词法 分 析 器 。 限 于 篇 幅 , 本 章 未 对 analyzer 部 分 进行 讲述 。 文 献 ( 高 
凯 ,2010) 对 低 版 本 Lucene 的 analyzer 部 分 进行 了 说 明 ;文献 ( 张 华 平 ,2014) 对 汉语 词法 分 
析 ( 包 括 网 络 语言 分 析 、 新 特征 语言 抽取 、 自 动 分 类 、 自 动 聚 类 、 自 动 摘要 、 关 键 词 抽 取 ) 等 进 
行 了 详细 的 分 析 , 并 给 出 了 算法 实现 。 文 献 ( 罗 刚 ,2014) 也 对 相关 技术 实现 进行 了 说 明 。 而 
有 关 Maven 的 背景 资料 ,可 以 参阅 文献 ( 许 晓 斌 ,2011)。 
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410 本章 小 结 


本 章 从 简单 的 信息 检索 、 统 计 等 方面 入 手 , 给 出 使 用 Java 和 Python 基于 Elasticsearch 
提供 的 功能 实现 信息 处 理 操 作 的 具体 方法 。 具 体 来 说 ,一 般 首 先 要 做 的 工作 是 将 
Elasticsearch 节点 实例 化 ,然后 构建 索引 文件 ,基于 用 户 给 定 的 查询 项 获取 文档 集合 (当然 
也 可 以 完成 对 文档 的 增 、 删 、 改 等 工作 ) ,并 根据 实际 需求 完成 聚合 等 数据 分 析 工 作 ; 在 完成 
进一步 处 理 ( 如 分 页 、 高 亮 、 过 滤 等 ) 后 ,将 处 理 结果 返回 到 前 端 页 面 。Java、Python 等 客户 
端 可 以 基于 Elasticsearch 提供 的 API 实现 对 应 的 信息 处 理 等 操作 。 首 先 需 要 引入 相关 的 
依赖 包 , 在 Java 中 可 用 Maven 添加 依赖 ,在 Python 中 则 使 用 pip 包 管理 工具 进行 安装 ;第 
二 是 实例 化 Elasticsearch 客户 端 ;第 三 是 设计 查询 ,查询 形式 有 多 种 ,Java 使 用 的 是 
QueryBuilders 以 及 AggregationBuilders 来 实现 查询 和 聚合 操作 ,Python 查询 类 似 于 第 3 
章 中 使 用 JSON 构建 的 查询 语句 。Java High Level RESTful Client 和 Elasticsearch DSL 
是 官方 提供 针对 Java 和 Python 的 更 为 简单 易 用 的 客户 端 实现 方式 。 无 论 是 哪 种 实现 方 
式 , 本 质 上 都 是 通过 构建 JSON 查询 语句 调用 Elasticsearch 提供 的 接口 ,从 而 实现 对 数据 的 
操作 。 另 外 ,如 果 需 要 ,还 可 以 设 定 分 页 查询 。 分 页 查询 有 两 种 方式 : 一 种 是 指定 {from/ 
size; 另 一 种 是 使 用 scroll/size, 可 以 用 scrollID 继续 往 下 查询 ,但 是 这 种 分 页 方式 必须 在 设 
定 的 时 间 范 围 内 完成 。 
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Elasticsearch 配置 与 集群 管理 


Elasticsearch comes with reasonable defaults for most settings. Before you 
set out to tweak and tune the configuration, make sure you understand what are 
you trying to accomplish and the consequences. The primary way of configuring 
a node is via the elasticsearch. yml file. This template lists the most important 
settings you may want to configure for a production cluster. 

elasticsearch. yml 


基于 Elasticsearch 可 以 完成 很 多 和 信息 存储 ,检索 等 相关 的 任务 。 本 章 对 Elasticsearch 
的 配置 .集群 管理 等 进行 说 明 ,并 对 提高 索引 和 查询 效率 的 策略 进行 了 简 述 。 通 过 对 本 章 的 
学 习 , 能 达到 更 好 地 配置 和 使 用 Elasticsearch 的 目的 。 


51 日 asticsearch 的 部 分 晕 本 配置 


Elasticsearch 的 大 多 数 配置 信息 在 Elasticsearch 安装 主 目录 下 的 config/elasticsearch. yml 
文件 中 ,所 有 配置 都 可 使 用 环境 变量 。 其 他 的 配置 信息 在 同一 目录 下 的 日 志 配 置 文件 
log4j2. properties 中 , 按 普通 log4j2 配置 项 来 设置 即 可 。 

elasticsearch. yml 负责 设置 服务 器 的 默认 状态 ,Elasticsearch 的 大 多 数 配 置 在 该 配置 
文件 中 完成 。 本 节 给 出 针对 elasticsearch. yml 的 部 分 配置 设置 信息 ,具体 如 下 : 

(1) 集群 名 称 cluster. name, 例 如 “cluster. name: elasticsearch”。 设 置 好 以 后 ,Elasticsearch 
会 自动 发 现在 同一 网 段 下 的 节点 。 如 果 在 同一 网 段 下 有 多 个 集群 ,可 用 这 个 属性 来 区 分 不 
同 的 集群 。 

(2) 节点 名 称 node. name。Elasticsearch 启动 时 会 自动 创建 节点 名 称 ,也 可 以 在 node. 
name 中 配置 ,例如 “node. name: "Master"”。 指 定 节点 名 称 有 助 于 利用 API 访问 具体 的 节 
点 。 虽 然 集群 启动 时 会 给 每 个 节点 初始 化 一 个 默认 的 名 称 , 但 仍然 建议 在 这 里 手动 设置 节 
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点 名 称 。 

(3) 节点 是 否 为 主 节点 (master)。 每 个 节点 都 可 被 配置 成 主 节 点 ,默认 值 为 true, 如 
“node. master: true”。 该 设置 的 目的 是 指定 该 节点 是 否 有 资格 被 选举 为 主 节 点 ,默认 集群 
中 的 第 一 个 节点 为 主 节点 ,如 果 这 个 节点 宕 机 ,就 会 重新 选举 主 节点 。 

(4) 设置 节点 是 否 存储 数据 。 默 认 值 为 true, 即 设置 node. data 的 值 为 “node. data: 
true”。 如 果 和 希望 节点 只 是 一 个 主 节 点 ,但 是 不 存储 数据 , 则 应 当 设置 为 代码 段 5. 1 所 示 的 
属性 。 


代码 段 5.1: 设置 节点 是 主 节点 但 不 存储 数据 
node .master: true 
node.data: false 


如 果 要 使 节点 只 存储 数据 ,但 不 是 主 节点 , 则 应 当 设置 为 代码 段 5. 2 所 示 的 属性 。 


代码 段 5.2: 设置 节点 不 作为 主 节点 ,但 存储 数据 
node.master: false 
node.data: true 


如 果 要 使 节点 既 不 是 主 节点 ,也 不 存储 数据 , 则 应 该 设置 为 代码 段 5. 3 所 示 的 属性 。 


代码 段 5.3: 设置 节点 既 不 是 主 节点 也 不 存储 数据 
node.master: false 
node.data: false 


对 部 分 相关 配置 的 说 明 如 下 : 

(1) node. attr. rack 用 于 设置 机 架 编 号 ,如 Rackl。 

(2) 可 在 node. max_local_storage_nodes 中 设置 一 台 机 器 能 运行 的 最 大 节点 数目 。 

(3) path. conf: /path/to/conf 用 于 设置 配置 文件 的 存储 路 径 , 默 认 是 Elasticsearch 根 
目录 下 的 config 文件 夹 。 

(4) path. data: /path/to/data 用 于 设置 分 配给 当前 节点 的 索引 数据 所 在 位 置 , 默 认 是 
Elasticsearch 根 目录 下 的 data 文件 夹 .可 以 选择 包含 一 个 以 上 的 位 置 , 用 逗号 隔 开 ,这 样 使 
得 数据 在 文件 级 别 可 跨越 位置 ,在 创建 时 就 有 更 多 的 自由 路 径 可 供 选 择 。 

(5) path. logs: /path/to/logs 用 于 设置 日 志文 件 所 在 位 置 ,默认 是 Elasticsearch 根 目 
录 下 的 logs 文件 夹 。 

(6) 设置 绑 定 的 IP 地 址 ,可 以 是 IPv4 地 址 或 IPv6 地 址 。 默 认 情 况 下 Elasticsearch 使 
用 0.0.0.0 地 址 ,并 为 HTTP 传输 开启 9200 一 9300 端口 ,为 节点 到 节点 的 通信 开启 9300 一 
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9400 端口 。 也 可 自行 设置 IP 地 址 ,可 在 配置 文件 的 network. bind_host 和 network. 
publish_host 中 进行 设置 。 

(7) transport. tcp. port 用 于 设置 节点 与 其 他 节点 交互 的 TCP 端口 ,默认 为 9300。 

(8) transport. tcp. compress 用 于 设置 是 否 压缩 TCP 传输 时 的 数据 ,默认 为 false。 

(9) http. port 用 于 设置 为 HTTP 传输 监听 定制 的 端口 ,默认 为 9200。 

(10) http. enabled 用 于 设置 是 否 使 用 HTTP 对 外 提供 服务 ,默认 为 true。 

(11) http. max_content_length 用 于 设置 内 容 的 最 大 长 度 ,默认 为 100MB。 

(12) discovery. zen. minimum_master_nodes 用 于 设置 集群 中 的 节点 可 以 知道 几 个 有 
主 节点 资格 的 节点 ,默认 为 1。 对 于 较 大 的 集群 来 说 ,可 以 将 该 值 设 置 为 "具有 主 节点 资格 
的 节点 数 /2 十 1”。 

(13) discovery. zen. ping_timeout 用 于 设置 集群 中 自动 发 现 其 他 节点 时 ping 连接 超时 
时 间 ,默认 为 3s。 对 于 比较 差 的 网 络 环境 ,可 以 提高 该 值 来 防止 自动 发 现时 出 错 。 

(14) gateway. recover_after_nodes 用 于 设置 集群 中 有 几 个 节点 启动 时 进行 数据 恢复 ， 
默认 为 1。 

(15) gateway. recover_after_time 用 于 设置 初始 化 数据 恢复 进程 的 超时 时 间 , 默 认 
为 5min 。 

(16) gateway. expected_nodes 用 于 设置 这 个 集群 中 节点 的 数量 ,默认 为 2。 一 旦 有 设 
定数 量 的 节点 启动 ,就 会 立即 进行 数据 恢复 。 

(17) cluster. routing. allocation. node_initial_primaries_recoveries 用 于 初始 化 数据 恢 
复 时 并 发 恢复 线程 的 个 数 , 默 认为 4。 

(18) cluster. routing. allocation. node_concurrent_recoveries 用 于 设置 添加 删除 节点 或 
负载 均衡 时 并 发 恢复 线程 的 个 数 ,默认 为 4。 

(19) indices. recovery. max_bytes_per_sec 用 于 设置 数据 恢复 时 限制 的 带宽 ,如 
100MB/s, 默 认为 0( 即 无 限制 )。 

(20) discovery. zen. ping. unicast. hosts: [ "hostl"," host2: port"," host3[ portX- 
portY]"] 用 于 设置 集群 中 主 节 点 的 初始 列表 ,可 通过 这 些 节 点 自动 发 现 新 加 入 集群 的 
节点 。 


1 
区 在 Elasticsearch 5. 0 及 后 续 版 本 中 ,不 允许 在 节点 配置 文件 中 写 入 形 如 
number_of_shards、number_of_replicas 这 样 的 索引 级 配置 。 应 使 用 RESTful index 
API 来 更 新 所 有 节点 的 配置 ,关于 这 部 分 的 执行 方法 参见 2. 3 节 的 相关 内 容 。 
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52 泰 引文 件 和 查询 优化 


Elasticsearch 的 索引 文件 是 基于 倒 排 索 引 机 制 完 成 的 。 从 索引 优化 的 角度 出 发 ,在 建 
立 索 引文 件 时 ,要 考虑 到 影响 索引 速度 的 以 下 因素 : 

。 分 片 数 量 。 

。 节点 数量 。 

。 索引 操作 (如 合并 、 优 化 .索引 写 操作 等 ) 。 

。 磁盘 IO 次 数 及 速度 。 

从 提高 效率 的 角度 出 发 ,可 以 从 如 下 几 点 来 考虑 提高 索引 工作 效率 : 
客户 端 减少 频繁 的 连接 并 提高 效率 (如 在 可 能 的 前 提 下 使 用 TCP 长 连接 .采用 多 线 
程 机 制 建立 连接 池 等 ) 。 
尽量 减 小 索引 文件 大 小 (索引 前 预 处 理 . 过 滤 等 ) 。 
合理 规划 映像 。 
合理 使 用 分 词 。 

从 查询 优化 的 角度 来 说 ,可 以 合理 规划 索引 和 分 片 来 提高 查询 效率 。 

除了 上 述 策略 外 ,路 由 选择 也 是 经 常 要 用 到 的 。 由 于 Elasticsearch 的 信息 往往 分 布 在 
不 同 的 分 片 中 ,因此 在 搜索 时 ,大 多 数 情况 下 需要 遍历 所 有 分 片 以 便 能 检索 到 相关 信息 。 其 
实 , 在 某 些 情况 下 ,如 果 能 指定 特定 的 分 片 ( 即 显 式 地 指定 路 由 ), 有 时 是 能 够 提高 检索 效率 
的 。 可 以 在 存储 数据 时 为 每 个 文档 自 定义 一 个 routing 值 来 代替 其 id 号 ,在 查询 .删除 ,更 
新 数据 时 只 需 给 出 相同 的 routing 值 即 可 。 在 Elasticsearch 中 ,对 同样 的 id 号 会 得 到 同样 
的 哈 希 值 ,因此 特定 用 户 的 所 有 文档 会 被 放置 在 一 个 分 片上 。 在 检索 时 ,利用 哈 希 值 就 只 需 
搜索 一 个 分 片 而 非 遍历 所 有 分 片 。 代 码 段 5. 4 给 出 了 在 索引 文件 information 中 加 入 新 数 
据 时 指定 routing 的 方法 。 


代码 段 5.4: routing 参数 的 使 用 

curl - H 'Content- Type: application/json' - XPUT localhost:9200/infommation/ 
_dbc/6?routing= userl&refresh= true ~-d '{ 

"title": "A new bookn 

站 


使 用 routing 参数 查询 该 条 数据 的 代码 如 下 : 


curl - H 'Content- Type: application/json' - XGET 'localhost:9200/information/ 
_dbcy6?routing= userl' 
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53 监控 集群 状态 


可 以 通过 HTTP 接口 监控 集群 状态 ,例如 http://localhost: 9200/_cluster/health? 
pretty, 可 以 观察 到 当前 集群 的 状态 。 图 5. 1 和 图 5. 2 是 两 个 不 同 的 Elasticsearch 集群 的 
状态 。 对 一 个 Elasticsearch 集群 来 说 ,其 status 的 取 值 可 以 有 如 下 几 种 : 

。 Green: 当 Elasticsearch 能 够 根据 配置 分 配 所 有 分 片 和 副本 时 的 状态 值 , 如 图 5.1 
所 示 。 

Yellow: 主 分 片 已 经 分 配 完毕 ,已 经 做 好 可 以 处 理 请 求 的 准备 ,但 是 某 些 副本 尚未 
完成 分 配 。 例 如 , 当 只 有 一 个 节点 , 却 同时 有 多 个 副本 时 ,因为 尚 无 其 他 节点 放置 这 
些 副 本 ,因此 其 状态 值 可 能 就 是 yellow, 如 图 5.2 所 示 。 


"cluster name" : "elasticsearch", 
"status" : "green", 

"timed out" : false, 
"number_of_nodes" : 2, 
"number_of data nodes" : 2, 
"active primary_shards" : 36， 
"active shards" : 60, 
"relocating shards" : 
"initializing shards 


"cluster name” : "elasticsearch", 
"status”: "yellow", 

"timed out" : false, 
“number_of_nodes” : 1, 
"number_of data nodes" : 1, 
"active primary_shards" : 30, 
"active shards" : 39, 
"relocating shards" : 0, 


0, "initializing shards" : 6， 

"unassigned shards" : 30, 

"delayed unassigned shards" : 9， 
"number_of_pending tasks” : 0, 
"number_of_in flight fetch" : @, 
"task_max waiting in queue millis" : 6， 
"active_shards percent as number" : 50.0 


"unassigned shards" : 0, 
"delayed_unassigned shards”: 6， 
"number_of pending tasks" : 6， 
"number of_in flight fetch" : @, 
"task_max waiting in queue millis" : @, 
"active shards percent as number" : 100.0 


图 5.1 状态 为 green 的 集群 图 5.2 状态 为 yellow 的 集群 


。 Red: 集群 目前 尚未 准备 就 绪 , 可 能 至 少 一 个 主 分 片 没有 准备 好 。 

在 Elasticsearch 集群 IP 地 址 后 加 上 /_cluster/health?pretty 参数 ,再 加 上 &&level 二 
indices 参数 (例如 ,http://localhost:9200/_cluster/health?pretty&level 二 indices, 如 图 5. 3 
所 示 ) 或 者 &level 二 shards 参数 (例如 ,http://localhost: 9200/_ cluster/health? 
pretty&level 二 shards, 如 图 5.4 所 示 ) ,可 以 返回 更 详细 的 集群 状态 信息 。 图 5. 4 不 仅 有 索 
引文 件 的 更 详细 的 状态 信息 ,还 有 其 分 片 的 状态 信息 。 

类 似 地 ,也 可 以 监控 节点 状态 ,以 了 解 集群 在 工作 过 程 中 发 生 了 什么 。 和 监控 集群 状态 
类 似 , 只 需 在 URL 后 给 出 相应 节点 的 信息 ,例如 如 果 监 控 master 节点 (master 是 已 在 
elasticsearch. yml 中 命名 的 节点 名 称 ) ,只 需 在 URL 的 /_nodes 参数 后 添加 节点 名 称 及 要 查 
询 的 统计 信息 即 可 ,如 http://localhost:9200/_nodes/master/stats/os,jvm?pretty, 如 图 5.5 所 
示 。 可 以 直接 指明 的 部 分 可 用 标记 信息 如 下 : 

。 indices: 获得 分 片 大 小 .文件 数量 .索引 的 创建 和 删除 时 间 、 搜 索 执 行 时 间 字段 缓存 


Pa 
'1621 大 数据 搜索 与 控 据 及 可 视 化 管理 方案 一 Elastic suck 6: Elasticsearch、Logstash、Kibana、X-Pack、Beats ( 第 4 版 ) 


大 小 数据 合并 与 清 缓存 等 信息 。 


"cluster name" : "elasticsearch", 
"status” : "green", 
"timed out”: false, 
"number_of nodes" : 2, 
"number_of data_nodes” : 2, 
"active primary_shards" : 36， 
"active shards" : 60, 
"relocating shards"” : 9 
"initializing shards" : 9， 
"unassigned shards”: 9, 
"delayed unassigned shards" : 9， 
"number_of pending tasks” : 
"number of in flight fetch” : 
"task_max waiting in queue millis" : 0, 
"active_shards_percent as_number” : 169.6， 
"indices”: { 
"myweibo3" : { 
"status" : "green", 
"number of shards" : 5, 
"number of replicas” : 1, 
"active primary_shards" : 5, 
"active shards" : 16, 
"relocating_ shards" 
"initializing shards" : 
"unassigned shards"” : 


"cluster name" : "elasticsearch", 
"status”: "green", 
"timed out" : false, 
"number_of nodes” : 2, 
"number_of data nodes" : 2, 
"active primary_shards" : 30, 
"active shards" : 60, 
"relocating shards" : 
"initializing shards" 
"unassigned shards”: 9， 
"delayed unassigned shards" : 
"number_of_ pending tasks”: 
"number_of_in flight fetch" : @, 
"task_max waiting in queue millis" : @, 
active_shards percent as number" : 166.6, 
"indices" : { 
"myweibo3" : { 

"status" : "green", 

"number of shards" : 5, 

"number of replicas" : 1, 

"active primary shards" : 5, 

"active shards” : 19, 

"relocating shards" : 


9, 


"initializing shards" : "shards" : { 
"unassigned_shards" : "eg" : { 
}, "status" : "green", 
"weibo" : { "primary_active”" : true, 
"status" : "green", "active_ shards"” : 2, 


"number of shards" : 5, 
"number of replicas" : 1, 
"active primary_shards" : 5, 
"active shards”: 19, 
"relocating shards" : 0, 
"initializing shards" : 9， 
"unassigned shards" : 9 


"relocating_shards” : 
"initializing_shards" 
"unassigned shards" : 9 


-汪汪 

"status”: "green", 
"primary_active”: true, 
"active shards” : 2 


图 5.3 增加 参数 level=indices 返回 的 图 5.4 增加 参数 level=shards 返回 的 
集群 状态 信息 集群 状态 信息 


。 fs: 获得 文件 系统 信息 ,数据 文件 路 径 、 可 用 磁盘 空间 信息 、 读 / 写 状态 等 。 

。 http: 获得 HTTP 连接 信息 。 

。jvm: 获得 Java 虚拟 机 的 内 存 、 垃 圾 回收 、 缓 冲 池 、 加 载 /未 加 载 类 的 数量 等 信息 。 
。 os: 获得 服务 器 的 负载 ,内存 使 用 情况 .虚拟 内 存 使 用 情况 等 统计 信息 。 

。 process: 获得 进程 的 内 存 开销 ,CPU 使 用 情况 .打开 文件 描述 符 等 统计 信息 。 

。 thread_pool: 获得 分 配给 不 同 操作 的 线程 状态 信息 。 

。 transport: 获得 关于 传输 模块 发 送 和 接收 数据 的 
。 breaker: 获得 field data 断路 器 的 统计 信息 。 

。 discovery: 获得 第 三 方 集群 的 统计 信息 。 

。 ingest: 获得 ingest 预 处 理 的 统计 信息 。 
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"nodes" : { 
"total” : 1, 
“successful” : 1, 
"failed" : 9 


}, 
"cluster name" : "cyElasticsearch", 
"nodes” : 
"SDSFWxIaTzKgWeOv_GmncQ" : { 
‘timestamp" : 1528637931465, 


: "127.6.9.1:9399" ,| 


"ingest" 


]， 

”attributes" : { 
“rack” : "Rackl" 

1 


"os" :{ 
"Stinel tanp" : 1528637931466, 
"cpu" : 
“percent" : 28, 
"load average” : { 
"y .45， 


mem”: { 

"total_in bytes" : 16731815936, 
"free_in bytes" : 11866961624， 
"used_in_bytes" : 4936854912, 
"free percent” : 71 

"used percent” : 29 


图 5.5 节点 状态 信息 


54 怪 制 秦 引 文件 分 片 与 副本 分 配 


集群 中 的 索引 文件 可 能 由 多 个 分 片 构成 , 且 每 个 分 片 可 能 拥有 多 个 副本 。 通 过 将 一 个 
单独 的 索引 文件 分 成 多 个 分 片 , 可 以 有 效 处 理由 于 索引 文件 太 大 而 不 能 在 一 台 机 器 上 运行 
的 问题 。 由 于 每 个 分 片 可 以 有 多 个 副本 ,通过 将 副本 分 配 到 多 个 服务 器 上 可 以 处 理 更 高 的 
查询 负载 。 为 了 进行 分 片 和 副本 分 配 操作 ,Elasticsearch 需要 确定 将 这 些 分 片 和 副本 放 在 
集群 的 什么 地 方 , 即 需要 确定 每 个 分 片 和 副本 分 配 到 哪 一 个 服务 器 /节点 上 (Rafal,2015)。 
可 以 对 一 个 索引 指定 每 个 节点 上 的 最 大 分 片 。 例 如 ,如 果 和 希望 irhome 索引 文件 在 每 个 节 
点 上 有 两 个 分 片 ,可 以 运行 代码 段 5. 5。 


代码 段 5.5: 指定 每 个 节点 上 的 最 大 分 片 数 

curl -了 'Content— Type: application/json' ~ XPUT "localhost:9200/ 让 - hame/ 
_settings' ~d '{ 

"index.routing.allocation.total shards per node" : 2 

py' 


A 
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这 个 属性 可 以 放置 在 elasticsearch. yml 文件 中 ,或 使 用 上 面 的 命令 在 活动 索引 上 更 新 
(Rafal,2015) ,也 可 以 手动 移动 分 片 和 副本 。 可 以 使 用 Elasticsearch 提供 的 RESTful 代码 
_cluster/reroute 进行 控制 。 

假设 有 3 个 节点 nodel .node2 和 node3 ,Elasticsearch 在 nodel 上 分 配 了 it-home 索引 
文件 的 两 个 分 片 ,假设 希望 将 第 二 个 分 片 移动 到 node2 上 ,并 在 node3 上 创建 副本 ,可 以 采 
用 如 代码 段 5. 6 所 示 的 方式 。 


代码 段 5.6: 移动 分 片 和 创建 副本 
curl - H ‘Content— Type: application/json' - XEOST "localhost:9200/_cluster/reroute' -ad '{ 


"ommands": [ 
. 
"move": { // 移 动 分 片 
index": "it- home", // 待 移动 的 索引 文件 
"shard": 1, // 指 定 希 望 移动 的 分 片 个 数 
"fram node": "nodel", // 指 定 源 节点 
"to_node": "node2" // 指 定 目的 节点 


} 
b 
{ 
"allocate replica": { 


"index": it- home", // 待 创建 副本 的 索引 文件 
"shard": 1, // 指 定 希 望 创 建 副 本 的 分 片 个 数 
"node": "node3" // 创 建 副 本 的 节点 


和 
py' 


可 以 通过 运行 cancel 命令 来 指定 希望 取消 分 配 的 索引 、 节 点 以 及 分 片 , 如 代码 段 5.7 
所 示 。 


代码 段 5.7: 取消 分 片 分 配 
curl - H 'Content- Type: application/json' - XEOST 'localhost:9200/_cluster/reroute' ~-d '{ 
"cammands": [ 
{ 
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"cancel": { // 取 消 操作 
"index": "it— home", /| 指定 索引 文件 
"shard": 1, // 指 定 要 取消 的 分 片 
"noden: "nodel" // 指 定 取消 分 配 的 节点 


另外 ,还 可 以 将 一 个 未 分 配 的 分 片 分 配 到 一 个 指定 的 节点 上 。 假 定 it-home 索引 文件 
中 有 一 个 编号 为 1 的 分 片 尚 未 分 配 , 现 希 望 将 其 分 配 到 node2 上 ,可 使 用 代码 段 5. 8 的 方式 


代码 段 5.8: 分 配 分 片 
curl -日 'Content- Type: application/json' - XFOST "localhost:9200/_cluster/rercute' -d' { 
"commands": [ 
{ 
"allocaten: { // 分 配 分 片 
"index": "it- home", // 指 定 索 引文 件 
"shard": 1, // 指 定 要 分 配 的 分 片 编号 
"noden: "node2" // 指 定 节点 
} 
} 
] 
所 
55 集群 管理 


下 面 以 某 个 实际 环境 中 的 集群 管理 为 例 ,介绍 内 存 配置 等 方面 的 内 容 。 集 群 硬件 采 
用 4 台 戴 尔 PowerEdge R720 机 架 服务 器 ,操作 系统 为 Ubuntu 16. 04, Elasticsearch 版 本 
为 6.2。 

首先 ,在 每 台 机 器 上 安装 Elasticsearch 并 手动 安装 X-Pack 插件 ( 详 见 8. 2 节 ) ,中 文 分 
词 器 等 必要 的 插件 (可 能 需要 在 elasticsearch. yml 中 完成 配置 ) 。 

以 后 台 启 动 的 方式 分 别 运行 每 台 机 器 上 装 有 XPack 插件 的 Elasticsearch, 并 运行 
Kibana( 详 细 介 绍 参 见 第 7 章 )。 进 入 Kibana 中 的 Monitoring 界面 ( 即 以 前 版 本 中 的 
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Marvel) , 单 击 Elasticsearch 面板 中 的 Overview 链接 ,进入 Elasticsearch 的 监控 界面 。 在 
上 方 统计 数据 栏 中 显示 默认 内 存 大 小 是 4GB, 这 通常 无 法 满足 实际 需要 。 此 时 需要 修改 
config 目录 下 的 jvm. options 中 默认 的 参数 -Xms2g 和 -Xmx2g 来 设置 内 存 大 小 。 修 改 完成 
后 重启 Elasticsearch, 再 次 进入 Monitoring 界面 ,从 Memory 的 值 可 以 看 出 修改 已 经 生效 ， 
集群 占用 的 总 内 存量 上 限 为 32GB( 修 改 前 为 4GB) ,如 图 5.6 所 示 。 


Clusters / cyElasticsearch / Elasticsearch 


kibana 


Overview Nodes Indices Jobs 
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Visualize 


Search Rate (/s) oan Latency (ms) 
Dashboard 


Timelion 


@ Toral Shards On/s @ Search Larency 1 ms 


图 5.6 修改 后 的 Elasticsearch 内 存 大 小 


蔬 p 在 Linux/Ubuntu 系统 中 ,配置 Elasticsearch 默认 的 内 存 大 小 时 , 既 可 以 使 用 
上 述 方法 ,也 可 以 在 bin 目录 下 的 Elasticsearch 程序 (可 用 gedit 等 文本 编辑 工具 打开 ) 
中 取消 ES_ JAVA_OPTS="-Xms8g -Xmx8g" 的 注释 ,并 根据 实际 需要 修改 其 数值 , 然 
后 将 config 目录 下 jvm. options 文件 中 的 -Xms2g 和 -Xmx2g 参数 注释 掉 , 并 重启 


Elasticsearch 。 
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文献 (Rafal,2015) 介 绍 了 路 由 选择 方法 、 索 引 别 名 及 其 用 途 , 给 出 了 监控 集群 状态 3 健 
康 状况 的 API 的 使 用 方法 ,对 常用 的 集群 诊断 工具 进行 了 介绍 ,对 一 些 问 题 ( 如 深 翻 复杂 度 
优化 .控制 集群 再 平衡 ,验证 查询 等 ) 的 处 理 也 给 出 了 建议 。 
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57 ”本章 外 结 


本 章 首 先 介 绍 了 Elasticsearch 的 基本 配置 。 虽然 默 认 的 配置 文件 已 经 能 够 应 付 大 多 
数 情况 ,但 了 解 有 关 YML 配置 文件 的 详细 内 容 还 是 很 有 必要 的 。 除 此 之 外 ,本 章 介 绍 了 提 
高 索引 和 查询 效率 的 策略 (如 介绍 了 routing 参数 的 使 用 ) ,这 在 一 些 情况 下 是 有 用 的 。 通 
过 监控 集群 状态 ,可 以 使 管理 员 了 解 集群 的 整体 运行 情况 ,及 时 发 现 可 能 存在 的 问题 。 而 手 
动 控制 索引 分 片 与 副本 分 配 ,能 更 有 效 地 调节 集群 状态 ,在 很 多 情况 下 是 必要 的 。 


第 '0 章 ， Chapter 6 


基于 Logstash 的 日 志 处 理 


Logstash is an open source data collection engine with real-time pipelining 
capabilities. Logstash can dynamically unify data from disparate sources and 
normalize the data into destinations of your choice. Any type of event can be 
enriched and transformed with a broad array of input, filter, and output plugins， 
with many native codecs further simplifying the ingestion process. Logstash 
accelerates your insights by harnessing a greater volume and variety of data. 

https://www. elastic. co 


随 着 大 数据 、 大 型 综合 网 站 以 及 Web 2. 0 技术 的 普及 , 越 来 越 多 的 软件 开发 者 需要 处 
理 海量 的 日 志 信息 。 网 络 搜索 日 志 分 析 旨 在 帮助 网 络 管理 员 或 搜索 引擎 开发 者 提升 网 络 管 
理 质量 ,提高 搜索 性 能 。 网 络 搜 索 日 志 记 录 的 主要 数据 包括 用 户 id、 查 询 关 键 词 . 网 页 点 击 
行为 ,行为 发 生 时 间 和 用 户 IP 地 址 等 信息 。 通 过 对 日 志 的 分 析 , 可 以 挖掘 用 户 的 搜索 模式 ， 
理解 用 户 的 搜索 意图 ,进而 在 网 站 建设 ,信息 推荐 ,个 性 化 服务 等 方面 向 用 户 提 供 更 好 的 服 
务 。 不 论 是 搜索 系统 还 是 广告 或 推荐 系统 ,现在 越 来 越 多 地 使 用 甚至 依赖 日 志 信息 来 帮助 
提升 系统 性 能 。 日 志 往 往 分 散在 各 种 服务 /设备 上 ,不 同 的 服务 /设备 可 能 会 有 不 同 种 类 的 
日 志 。 日志 数据 集 的 共享 机 制 也 是 工业 界 和 学 术 界 共同 努力 的 方向 。 一 般 来 说 ,日 志 数 量 
巨大 ,共享 并 非 易 事 。 人 们 期 望 不 必 通 读 日 志 或 者 不 必 理 解 日 志 中 的 数据 格式 ,就 能 挖掘 出 
隐藏 在 海量 日 志 背 后 的 知识 。 但 对 于 通常 的 日 志 处 理 技术 而 言 ,目前 的 日 志 信息 缺乏 统一 
的 格式 ,每 个 应 用 程序 或 设备 都 可 以 有 自己 的 日 志 记录 格式 。 日 志 数据 格式 众多 ,表达 方式 
不 同 (如 对 时 间 截 的 表示 形式 各 异 ) ,导致 对 日 志 的 搜索 与 挖掘 很 困难 。 对 这 些 非 中 心 化 的 
海量 日 志 信 息 而 言 ,高 效 地 处 理 ,挖掘 其 中 的 信息 变 得 越 来 越 重要 。 通 常 采 用 的 解决 办 法 是 
在 中 央 系 统 上 由 专门 的 日 志 服 务 器 收集 日 志 , 这 样 可 帮助 用 户 通过 SSH 协议 在 多 台 服 务 器 
之 间 浏 览 .查找 信息 。 但 传统 的 日 志 系统 接 人 周期 较 长 ,有 时 不 是 任何 字段 都 可 以 搜索 的 ， 
处 理 速度 也 比较 慢 。 另 外 ,统计 数据 一 般 是 预先 聚合 好 的 ,无 法 按 需 实时 计算 ,如 果 新 增加 


A、 
第 6 章 基于 Logstash 的 日 志 处 理 ‘169) 


一 个 分 析 维 度 ,往往 要 进行 二 次 开发 。 当 日 志 信息 量 越 来 越 大 时 ,从 快速 增长 的 海量 日 志 
据 流 中 提取 所 需 信 息 ,并 将 其 与 其 他 事件 进行 关联 ,将 变 得 越 来 越 困 难 。 

Elastic Stack 中 的 Logstash 是 一 个 能 有 效 进 行 日 志 处 理 的 工具 ,可 以 对 日 志 进 行 收 
集 、 分 析 。Logstash 本 身 并 不 产生 日 志 , 它 只 是 一 个 内 置 了 分 析 和 转换 工具 的 日 志 管 理工 
具 , 是 一 个 接收 、 处 理 、 转 发 日 志 的 管道 。 不 同 于 分 离 的 代理 端 或 主机 端 ,Logstash 可 配置 
单一 的 代理 端 并 与 其 他 开源 软件 结合 ,以 实现 不 同 的 功能 。 

Logstash 处 理事 件 一 般 有 3 个 阶段 : 输入 、 过 滤 和 输出 。 输 入 插件 input 从 数据 源 获 
取 数 据 , 过 滤 插 件 filter 根据 用 户 配置 的 数据 格式 修改 数据 ,输出 插件 output 将 其 转换 并 输 
出 到 其 他 位 置 。 输 入 插件 input 和 输出 插件 output 均 支 持 Codecs, 而 Codecs 使 其 能 够 编 
码 或 解码 数据 。 在 输入 和 输出 阶段 ,可 以 对 进入 的 或 退出 Logstash 的 数据 进行 编码 或 解 
码 ,在 过 滤 阶 段 对 日 志 进行 分 析 、` 过滤。 可 见 , Logstash 不 但 可 以 接收 多 种 格式 的 日 志 输 
入 ,还 可 以 解析 日 志 , 并 将 多 种 格式 的 日 志 输 出 到 不 同 的 目的 地 。 例 如 ,Logstash 可 以 将 日 
志 收 集 在 一 起 交 给 Elasticsearch, 由 Elasticsearch 进行 自 定义 搜索 ,并 借助 Kibana 进行 分 
析 结 果 的 展示 。 
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Logstash 提供 了 几 百 种 插件 ,可 以 方便 地 处 理 几 乎 任何 数据 源 中 的 各 种 日 志 数 据 。 日 
志 数 据 可 以 转换 为 各 种 数据 类 型 输出 ,也 能 方便 地 采用 二 次 开发 的 插件 完善 个 性 化 处 理 。 
Logstash 6. x 和 Elasticsearch 6. x 是 兼容 的 ,提供 离线 插件 安装 、 性 能 监控 等 功能 ,并 且 支 
持 Filebeat( 一 种 安装 在 服务 器 上 的 代理 程序 ,用 于 解析 和 传输 特定 目录 中 日 志文 件 ) 。 
Logstash 的 结构 如 图 6. 1 所 示 。 输 入 部 分 可 以 接收 tcp ,file、syslog .kafka .rabbitmq( 一 种 
可 复 用 的 消息 队列 ) redis \stdin twitter 等 格式 的 数据 ;过 滤 部 分 包括 grok( 使 用 模式 匹配 
的 数据 抽取 ) ,date( 从 字段 中 解析 时 间 戳 等 ) .csv、geoip( 通 过 来 访 者 的 IP 地 址 定位 其 地 理 
位 置 等 信息 )、kv 键 - 值 对 、ruby 等 ;输出 部 分 包括 日 志 存 储 ( 如 存储 在 Elasticsearch、 
MongoDB、S3 及 文件 中 ) .通知 (如 警报 系统 工具 Pagerduty、 开 源 的 网 络 监 视 工具 nagios、 
提供 分 布 式 系 统 监 视 以 及 网 络 监视 功能 的 zabbix、Email 等 )、 消 息 队 列 ( 如 tcp、 kafka、 
redis、rabbitmq、syslog 等 )。Codec 用 于 对 数据 流 进行 某 种 格式 化 处 理 , 如 json、msgpack、 
plain 等 , 它 可 作为 输入 输出 流 中 的 一 部 分 ,帮助 分 割 或 格式 化 数据 。 

一 般 地 ,需要 创建 一 个 含有 定义 输入 输出 等 内 容 的 配置 文件 ,可 以 在 文件 内 写 人 数据 来 
源 和 目的 地 .是否 对 日 志 数 据 进行 某 种 格式 转换 等 ,并 在 启动 Logstash 时 指定 拟 采用 的 配 
置 文件 名 称 。 

代码 段 6. 1 给 出 Logstash 的 一 种 简易 的 配置 文件 ,这 里 的 信息 设置 为 从 键盘 输入 数 
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图 6.1 Logstash 的 结构 


据 , 输 出 的 信息 在 屏幕 上 显示 (Logstash 和 Kibana 相关 配置 文件 中 的 代码 采用 # 注 释 的 方 


式 ,# 后 的 文字 是 说 明 )。 
代码 段 6.1: 在 Logstash 的 配置 文件 中 设置 数据 来 源 和 目的 地 
input { # 数 据 来 源 
stdin{} #stdin 是 标准 输入 文件 
} 
output { # 目 的 地 
stdout{} # stdout 是 标准 输出 文件 
} 


在 Linux 中 可 使 用 下 面 的 命令 启动 bin 目录 下 的 配置 文件 (这 里 的 启动 参数 -{ 的 作用 
是 指定 一 个 Logstash 配置 文件 ,此 例 为 conf. conf) : 


./]logstash - 工 ./conf.conf 


也 可 使 用 如 下 命令 从 键盘 接收 数据 ,输出 到 屏幕 上 ,效果 与 上 面 的 命令 一 致 


./logstash -e "input { stdin { } } output { stdout {} } 
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地 
如 果 在 Windows 系统 中 运行 上 述 命令 ,需要 保证 配置 文件 为 无 BOM 的 
UTF-8 格式 文件 。Logstash 还 可 附加 其 他 参数 ,如 上 述 命令 中 的 -e 参 数 , 其 作用 是 执行 
引号 里 的 设置 。 也 可 通过 -n 设置 节点 名 称 , 通 过 -p 设置 插件 目录 ,通过 -| 设置 日 志 路 径 
等 。 除 此 之 外 ,还 有 很 多 参数 ,可 使 用 logstash -help 命令 查看 参数 说 明 或 浏览 
Logstash 官方 文档 。 


然后 ,系统 会 等 待 用 户 输入 。 用 户 可 以 通过 键盘 输入 一 些 字符 ,输入 完毕 并 按 回 车 键 之 
后 ,屏幕 上 会 出 现 如 图 6. 2 所 示 的 内 容 ( 其 中 的 “hello world” 字 符 串 是 用 户 输入 的 测试 内 
容 )。 从 返回 的 内 容 中 可 以 看 到 ,其 输出 结果 为 JSON 格式 的 数据 ,其 中 包含 了 用 来 标记 事 
件 的 发 生 时 间 的 @timestamp、 标 记事 件 发 生 所 在 位 置 的 hostname( 图 6. 2 的 测试 环境 中 的 
hostname 是 localhost. localdomain) 事件 的 版 本 以 及 用 户 输入 的 内 容 。 如 果 能 看 到 类 似 的 
结果 ,说 明 Logstash 已 经 可 以 正常 运行 了 。 


shiyanshi6567:*~7]iangyuehua7T09Stash-6.2.476in$ .7T09Stash -e "input T stdqinT 了 了 OUtputT stdout TF 了 
Sending Logstash's logs to /home/shiyanshi/jiangyuehua/logstash-6.2.4/logs which is now configured via 1| 
[2618-67-95T68:51:11,555][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"netflow" 


on"} 
[2618-97-95T98:51:11,597][INF0 ][logstash.modules.scaffold] Initializing module {:module_name=>"fb_apach| 


ration"} 

[2618-67-95T68:51:12,677] [WARN ][logstash.config.source.multilocal] Ignoring the ‘pipelines.yml’ file b 
[2618-67-95T68:51:13,866] [INF0 ] [1ogstash.runner ] Starting Logstash {"logstash.version"=>"6.2. 
[2618-67-95T98:51:15,937][INFO ][logstash.agent ] Successfully started Logstash API endpoint {| 
[2618-67-95T98:51:19,353][INF0O ][logstash.pipeline ] Starting pipeline {:pipeline_id=>"main", "pi 
[2918-07-95T68:51:19,563][INFO ][logstash.pipeline ] Pipeline started successfully {:pipeline_id: 
The stdin plugin is now waiting for input: 

[2618-67-95T68:51:19,726][INFO ][logstash.agent ] Pipelines running {:count=>1, :pipelines=>["| 


hello world 
1 


“host”=> "507", 
"message” => "hello world", 
"etimestamp”=> 2618-97-95T69:51:51.569Z, 
“@version" => "1" 


图 6.2 Logstash 运行 界面 


了 

Logstash 用 {} 来 定义 区 域 ,支持 常用 的 数据 类 型 。Logstash 的 DSL 例如 
区 域 . 注 释 ,数据 类 型 (布尔 值 ,字符 囊 , 数 值 , 数 组 , 哈 希 ) 条件 判 断 .字段 引 用 等 是 
Ruby 风格 的 。 
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可 以 把 Logstash 看 成 对 日 志 信 息 进 行 处 理 的 管道 。 由 于 日 志 数据 的 来 源 是 多 种 多 样 
的 ,因此 要 在 Logstash 中 的 input 部 分 设置 对 不 同 来 源 的 数据 进行 处 理 的 方法 。 
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Logstash 可 以 多 个 数据 源 作 为 日 志和 输入 端 ,例如 ,可 设置 beats、cloudwatch、 
couchdb _ changes、 drupal _ dblog、 elasticsearch、 eventlog、 exec, file、 ganglia、 gelf、 
gemfire, generator, github, graphite、, heartbeat, heroku, http,\ http _ poller, imap、 irc、 
jdbc、jmx、 kafka、, kinesis、 log4j, lumberjack、 meetup、 pipe、 puppet _ facter、 rabbitmq、 
rackspace redis relp ,rss\s3 、salesforce、snmptrap sqlite, sqs,stdin, stomp、syslog, tcp、 
twitter、udp、unix、varnishlog、websocket、wmi、xmpp、zenoss、zeromq 等 多 种 来 源 的 数 
据 作 为 输入 。 通 过 使 用 过 滤 机 制 ,编程 人 员 可 以 修改 、 操 纵 这 些 数据 和 事件 。 限 于 篇 
幅 , 本 章 只 对 部 分 插件 的 可 用 参数 配置 和 命令 进行 简介 。 


6.2.1 处 理 基 于 file 方式 输入 的 日 志 信 息 


通过 file 方式 ,可 以 从 指定 的 文件 中 读 取 数据 并 输入 到 Logstash 中 。 基 于 这 一 特性 ， 
可 以 监控 某 些 程序 的 日 志文 件 (要 求 这 些 日 志文 件 的 格式 是 以 行 来 组 织 的 )。 例 如 ,可 以 将 
代码 段 6. 1 修改 为 代码 段 6. 2。 


代码 段 6.2: Iogstash 配 置 文件 格式 ,基于 file 方 式 读 取 指定 文件 


input { 
file { 

codec=>… # 可 选项 ,默认 是 plain, 可 通过 这 个 参数 设置 编码 方式 

discover interval= > # 可 选项 ,指定 Iogstash 隔 多 久 检查 被 监听 的 路 径 下 是 否 有 新 
# 文 件 , 默 认为 15s 

exclude=>… # 可 选项 ,不 想 被 监听 的 文件 可 在 这 里 指定 

path= >… # 必 选项 ,指定 需 处 理 的 文件 路 径 

sincedb path=>… # 可 选项 ,如 果 不 想 用 默认 的 SHOME/.sincedb* ,可 在 这 里 指 
# 定 其 他 位 置 的 配置 文件 


sincedb write interval=>… 
# 可 选项 ,指定 Iogstash 隔 多 久 写 一 次 sincedb 文 件 ,默认 为 155 
start position= >… # 可 选项 , 取 值 范围 为 ["beginning", "end"], 指 定 Logstash 
# 从 什么 位 置 开 始 读 取 文 件数 据 ,默认 为 snda。 如 要 导入 原 有 数 
# 据 ,将 其 改 成 beginning,Iogstash 就 从 头 开始 读 取 


stat_interval=>… # 可 选项 ,指定 Iogstash 隔 多 久 检 查 一 次 被 监听 文件 状态 是 否 
# 有 更 新 ,默认 为 1s 

tags=>… # 可 选项 

type=>… # 可 选项 


# 其 他 选项 , 略 
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a 
在 代码 段 6.2 中 , 除 path 为 必 选 项 以 外 ,其 他 参数 都 是 可 选项 。 


依照 这 种 方式 ,这 里 给 出 一 个 配置 文件 实例 , 见 图 6.3。 在 这 里 指定 了 待 处 理 的 日 志 
件 的 路 径 ( 其 中 的 参数 start_position 设 为 beginning, 意 为 从 该 文件 的 头 开 始 处 理 ) 。 输 出 
目的 地 包括 Elasticsearch。 在 图 6. 4 中 显示 文件 内 容 已 经 输出 到 Elasticsearch 的 索引 文 
件 中 。 


input T 
file { 
path => "/home/shiyanshi/jiangyuehua/logstash-6.2.4/NOTICE .TXT” 
start_position => "beginning" 
sincedb_path => “/home/shiyanshi/jiangyuehua/logstash-6.2.4/my.txt" 


} 
} 
output { 
stdout{} 
elasticsearch { # 通 过 HTTP 的 方式 将 数据 传输 到 ELasticsearch 中 
hosts => ["localhost"] # 指 定数 组 形式 的 hosts 列 表 
} 
} 


图 6.3 conf. conf 配置 文件 


"logstash-2018.07.02", 
"doc”, 
0WmWWQBmMC1EBcCTh52DM", 


图 6.4 输出 到 Elasticsearch 的 索引 文件 中 的 信息 


6.2.2 处 理 基 于 generator 产生 的 日 志 信息 


generator 可 生成 指定 的 或 随机 的 日 志 人 信息。 代码 段 6. 3 给 出 在 input 段 中 使 用 
generator 的 方法 ,数据 输出 则 使 用 stdout 方法 在 屏幕 上 输 : 际 效果 如 图 6. 5 所 示 。 图 
6.5 的 左 侧 是 配置 文件 ,i 文 里 count 和 lines 的 用 法 ;图 6. 5 右 侧 是 部 分 数据 的 实际 执 
行 结果 。 
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代码 段 6.3: Iogstash 配 置 文件 格式 ,基于 generatcr 的 日 志 输 入 
imput { 
ES 

codec=>… # 可 选项 , 默认 为 Plain 
count=>… # 可 选项 ,可 设置 发 送 多 少 次 ,默认 为 0( 即 不 限制 ) 
lines=>… # 可 选项 ,可 以 数组 格式 顺序 发 送 
message= > # 可 选项 ,可 写成 指定 字符 串 ,默认 为 "Hello worldl" 
tags=>… # 可 选项 ,标记 日 志 ,可 用 于 后 续 处 理工 作 
threads= > … # 可 选项 ,可 以 设置 用 来 发 送 日 志 信息 的 线程 数 ,默认 为 1 
type=>… # 可 选项 ,默认 为 string 类 型 

} 


QT NF TUUogs tah gnt TPipetines ronnimg tredl 
input { { 


generator { “message” => "line-1", 
codec => "plain" "eversion" -> "1", 
count => 1 “@timestanp" => 2018-07-05T01:32:91.325Z, 
lines -> ["line-1", “line2"] “sequence” -> 9， 
tags => ["tag1"] “host” => "597", 
threads => 1 “tags" -> [ 
} [8] "tagl" 
} ] 
output{ } 
stdout {} { 


"message” => "line2", 
"“@version” => "1", 
"etimestamp”=> 2918-67-95T91:32:91.441Z, 
“sequence” => 0, 
"host” => "597", 
“tags” -> [ 
[9] “tagl” 
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| } 
图 6.5 基于 generator 的 日 志 输 入 及 实际 输出 


6.2.3 基于 Filebeat 处 理 log4j 的 日 志 信 息 


在 Logstash 的 配置 文件 的 输入 部 分 配置 有 关 beats 的 部 分 ,并 在 Filebeat 中 配置 相关 
的 输入 输出 信息 ,可 使 Filebeat 读 取 log4j 中 产生 的 日 志 信息 数据 并 传输 至 Logstash 中 。 
代码 段 6.4 给 出 在 Logstash 中 处 理 beats 的 传输 参数 的 方法 。 


代码 段 6.4: Iogstash 配 置 文件 格式 ,基于 log4j 的 日 志 输 入 


input { 
beats { 
codec=>… # 可 选项 ,默认 为 Plain 
host=>… # 可 选项 ,默认 为 0.0.0.0 


cipher suites=>… # 可 选项 ,选择 加 密 方式 
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client inactivity timeout=>… # 可 选项 ,空闲 客户 端 关闭 时 间 


cipher suites=>… # 可 选项 ,选择 加 密 方式 

ssl =>… #boolean 类 型 的 可 选项 ,设置 是 否 开启 加 密 传输 ,默认 为 否 
port=>" # 必 选项 ,无 默认 值 

tags=>… # 可 选项 ,标记 日 志 , 可 用 于 后 续 处 理工 作 

type=>… # 可 选项 ,默认 为 string 类 型 

# 其 他 选项 , 略 


图 6.6 给 出 了 部 分 log4j 日 志文 件数 据 。 代 码 段 6.5 指定 了 Logstash 接收 beats 数据 
的 端口 ,并 将 接收 到 的 数据 输出 到 屏幕 上 。 代 码 段 6.6 给 出 使 用 Filebeat 读 取 log4j 所 产生 


的 数据 并 传送 至 Logstash 中 的 配置 信息 。 


代码 段 6.5: Iogstash 配 置 


input { 
beats { 
port= > 5000 # 配 置 接收 输入 的 端口 为 5000 
} 
} 
cutput{ 
stdout{} # 直 接 输出 到 屏幕 上 
} 


代码 段 6.6: Filebeat 配置 
全 lebeat.inputs: 
-type: log 
enabled: true 
paths: 
—C:\Users\84902\ Desktop\testI06.txt # 读 取 的 文件 路 径 
output: 
logstash: 
hosts: ["192.168.1.111:5000"] # 输 出 的 目标 机 器 人 地 址 和 端口 


2617-11-21 15:33:57,821 INFO [servlet.mvec.annotation.DefaultAnnotationHandlerMapping:315] Mapped URL path 
2e17-11-21 15: INFO [servlet -mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 
12617-11-21 15 INFO [servlet -mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 
2e17-11-21 15 INFO [servlet-mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 
2e17-11-21 15 INFO [servlet -mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 
2e17-11-21 15: INFO [servlet -mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 
?2e17-11-21 15:33:57,825 INFO [servlet-mvc-annotation-DefaultAnnotationHandlerMapping:315] Mapped URL path 


T7system7ex: 
[/systen/ex 
[/systen/ex 
[/systen/ex 
[/systen/nel 
[/systen/nel 
[/systen/nel 


6.6 log4j 的 部 分 日 志 数 据 
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在 Logstash 6.x 以 上 版 本 中 ,已 弃 用 log4j 插件 。 官 方 推荐 的 使 用 方式 是 通 
过 Filebeat 读 取 日 志文 件 并 传输 到 Logstash 中 ,这 种 方式 可 设置 SSL 加 密 传输 ,更 推荐 
使 用 在 生产 环境 中 。 但 是 ,Logtash 的 log4j 插件 仍 可 通过 bin/logstash-plugin install 
logstash-input-log4j 命令 安装 和 使 用 ,详情 请 查阅 官方 文档 。 


运行 程序 后 ,将 基于 log4j 产生 的 输出 数据 作为 Logstash 的 输入 信息 。 图 6.7 是 经 过 
Logstash 处 理 后 的 输出 信息 。 


{ 
"offset”=> 1152, 
"host" => { 
“name” => “DESKTOP-ICGDDPS” 
}, 
"source" => "C:\\Users\\84902\\Desktop\\log.txt", 
"prospector” => { 
"type” => "log" 
}, 


"beat" => { 
"hostname" => "DESKTOP-ICGDDPS", 
“version" => "6.3.0", 

"name" => "DESKTOP-ICGDDPS" 


"tags" => [ 
[9] “beats_input_codec plain applied”" 
] 


"message”=> “2018-64-21 15:33:57,825 INFO [servlet.mvc.annotation 
andler megat hoontion’” 
"@version" => 
“etimestamp”=> 2018- 97-65T61:56:64.576Z, 
“input” => 
"type” => "log" 


} 
} 


图 6.7 经 过 Logstash 处 理 后 的 输出 信息 


6.2.4 ”处 理 基于 redis 的 日 志 信息 


Logstash 可 从 redis 实例 中 获取 日 志 。 通 过 在 Logstash 的 配置 文件 中 使 用 redis 部 分 ， 
可 以 将 redis 中 的 日 志 信息 输出 到 Logstash 中 。 


! 
redis 是 一 个 键 - 值 对 存储 系统 ,支持 存储 的 值 包括 string、list、set、hash 等 类 
型 。 为 了 提高 存储 效率 ,数据 都 是 缓存 在 内 存 中 的 。 


代码 段 6.7 给 出 了 在 Logstash 端的 配置 文件 格式 。 需 要 说 明 如 下 几 点 : 
。 data_type: 在 配置 文件 中 通过 设 定 它 来 指定 Logstash 即将 处 理 的 redis 数据 源 是 
列表 形式 的 还 是 channel 或 pattern_channel 形式 的 。 其 中 ,pattern_channel 可 指定 
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一 个 或 多 个 给 定 模式 的 频道 ,例如 itx 匹配 所 有 以 it 开头 的 频道 (it. news.it. blog、 
it. tweets 等 ) 。 

。 key: 由 于 redis 是 一 个 基于 键 - 值 对 的 存储 系统 ,因此 在 进行 数据 处 理 时 ,要 指定 list 
或 channel 的 名 字 ( 也 就 是 键 ) 。redis 相当 于 消息 的 发 布 方 ,而 Logstash 则 是 消息 


的 订阅 方 。 
代码 段 6.7: Logstash 配置 文件 格式 ,基于 redis 输 入 数据 流 
input { 
redis { 
aqd field=>…  # 险 希 值 ,可 选项 ,默认 为 {} 
batch_count=>…  # 数 值 , 可 选项 ,默认 为 1 
codec= >… # 编 解码 器 ,可 选项 ,默认 为 json 
data type=>… # 字 符 串 , 必 选项 , 取 值 为 mist"、"channel"、"pattem chamnel" 之 一 
db > 和 … # 数 值 ,可 选项 ,默认 为 0 
host=>… # 可 选项 ,默认 为 127.0.0.1 
Path=>… # 可 选项 
key=>* # 字 符 串 , 必 选项 
password= > … # 可 选项 
Port=>… # 可 选项 ,默认 为 6379 
ssl =>… # 可 选项 ,指定 是 否 使 用 加 密 
tags=>… # 可 选项 ,标记 日 志 , 可 用 于 后 续 处 理工 作 
threade= >… # 数 值 ,可 选项 , 默认 为 1 
timeout=>… # 数 值 ,可 选项 , 默认 为 5 
type=>" # 可 选项 ,默认 为 string 类 型 
} 
$ 


下 面 给 出 基于 redis 的 日 志 数 据 应 用 实例 。 首 先 安装 并 配置 好 redis, 然 后 启动 redis 服 
务 器 端 ,在 redis 配置 文件 中 设置 服务 器 端 密码 .端口 号 等 (默认 端口 号 为 6379)。 启 动 服务 
端 后 ,可 使 用 客户 端 进行 测试 。 当 确保 redis 正常 启动 以 后 ,可 在 redis 端 设 置 日 志 数 据 流 。 


1. 测试 基于 列表 的 日 志 数据 流 

首先 测试 基于 列表 (list) 的 日 志 数 据 流 。 图 6. 8 给 出 ee 
Logstash 的 配置 文件 。 其 中 ,参数 batch_count 指定 从 redis ee 
中 一 次 读 取 两 条 事件 日 志 , 参 数 data_type 指定 输入 的 数据 key => “msg”™ 


password => "123456" 


来 源 于 列表 ,参数 key 指定 列表 的 名 字 为 msg,password 指 
定 此 redis 服务 器 端 密码 是 123456, 其 他 的 采用 默认 值 
即 可 。 

在 启动 Logstash 前 ,可 先 测试 redis 的 运行 情况 。 图 6.8 Logstash 的 配置 
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图 6. 9 左 侧 的 第 一 条 命令 是 启动 redis 客户 端 , 然 后 通过 rpush 命令 向 名 为 msg 的 列表 中 插 
入 3 个 值 (分 别 是 "hello world" "hello Logstash"、"hello elasticsearch") ,它们 被 依次 插入 
msg 中 。 


2 
rpush 是 redis 的 命令 ,其 作用 是 将 一 个 或 多 个 值 插入 列表 的 表 尾 (最 右边 )。 


然后 ,启动 Logstash, 可 以 看 到 redis 中 的 数据 ( 即 msg 中 的 "hello world"、" hello 
Logstash"、"hello elasticsearch" 等 字符 串 ) 已 经 通过 Logstash 显示 在 屏幕 上 ,如 图 6. 9 右 侧 
所 示 。 此 时 msg 中 的 数据 流 被 清空 。 之 后 ,通过 rpush 命令 输入 新 的 字符 串 "redis"( 此 时 
msg 中 的 数据 流 数量 是 1 条 )。 由 于 此 时 Logstash 已 启动 ,因此 这 个 输入 的 数据 ( 即 "redis" 
字符 串 ) 会 经 Logstash 显示 在 屏幕 上 。 此 时 ,redis 端的 msg 中 的 数据 流 被 清空 (可 使 用 
lrange msg 0 -1 命令 查看 msg 中 的 值 ) ,数据 流 已 经 通过 Logstash 这 个 管道 流向 了 屏幕 端 。 


127.0.0.1:6379> 

shiyanshie567:~/jiangyuehua/redis-4.9.19$ src/redis- "@version" => “1"， 

127.0.0.1:6379> auth 123456 "etimestamp”=> 2018-97-03T07:58:09.699Z, 
ok “message” => "hello Logstash” 


127.0.0.1:6379> rpush msg “hello world" 


(integer) 1 

127.6.9.1:6379> rpush msg “hello Logstash" "@version" => "1", 

(integer) 1 "etimestamp”=> 2018-97-93T67:59:55.285Z,， 
127.0.0.1:6379> rpush msg "hello elasticsearch" ”message”=> "hello elasticsearch” 
(integer) 1 

127.0.0.1:6379> 


图 6.9 redis 端的 数据 情况 及 基于 列表 的 Logstash 处 理 后 的 结果 


2. 测试 基于 pattern_channel 的 日 志 数 据 流 
基于 消息 订阅 机 制 ,在 redis 中 也 可 使 用 publish channel message 命令 将 信息 发 送 到 指 
定 的 频道 。 修 改 图 6. 8 的 代码 , 改 为 输入 数据 来 源 


mp 
于 pattern_channel, 并 修改 key 为 msg * ,其 他 的 参 和 网 本 
数 采用 默认 值 或 者 类 似 于 图 6. 8 中 的 设置 即 可 ,如 人 
图 6. 10 所 示 。 host => "127.9.9.1" 


key => “nsg*” 
然后 启动 Logstash。 在 redis 的 客户 端 通过 | ) ?so > 123459 
publish 命令 向 名 为 msgl、msg2、msg3 的 3 个 频道 


} 
output{ 


发 布 信息 ,如 图 6. 11 左 侧 所 示 。 此 例 中 第 一 次 发 布 全 


的 消息 是 字符 串 "China" ,下 方 显示 的 数字 1 表示 有 
一 个 订阅 者 (这 个 订阅 者 就 是 Logstash, 这 个 输入 到 
msgl 的 信息 已 经 由 Logstash 订阅 并 显示 到 屏幕 ,如 图 6. 11 右 侧 所 示 )。 同 理 , 可 依次 在 
redis 端 向 不 同 的 频道 发 布 "Japan"、"USA" 等 字符 串 ,它们 分 别 经 由 Logstash 这 个 管道 分 


图 6. 10 ”Logstash 的 配置 


别 输出 到 msgl 和 msg2 并 显示 在 屏幕 上 。 
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127.6.6.1:6379> publish msgl “China" 
{integer) 1 

127.6.9.1:6379> publish msg2 "Japan”" 
(integer) 1 

127.0.0.1:6379> publish msg3 “USA” 
(integer) 1 

127.0.0.1:6379> 

127.9.9.1:6379> 

127.9.9.1:6379> 

127.0.0.1:6379> 

127.0.0.1:6379> 

127.0.0.1:6379> 

127.0.0.1:6379> 


"@version" => "1" 
"@timestamp” => 办 07-93T08:21:93.4622, 
"message” => “China” 


"@version" => "1", 
"@timestamp” => 2 697-63T698:21:23.369Z, 
"message” => "Japan” 


"@version" => "1", 
"@timestamp” => 2016. 697-693T98:21:38.646Z, 
"message” => “USA" 


图 6.11 


6.2.5 处 理 基于 TCP 传输 的 日 志 数 据 
Logstash 可 以 从 TCP Socket 中 获取 日 志 数据 。 像 stdin 和 file 方法 一 样 ,这 


一 行 都 是 一 个 日 志 。 


redis 端的 数据 情况 及 基于 频道 的 Logstash 处 理 后 的 结果 


里 假定 每 


地 
区 jp Tcp 是 因特网 中 的 传输 层 协议 ,使 用 三 次 握手 协议 建立 连接 。 当 主动 方 发 出 
syn 连接 请 求 后 ,等 待 对 方 回 答 syn 十 ack, 并 最 终 对 对 方 的 syn 执行 ack 确认 。 


代码 段 6. 8 给 出 基于 TCP 传输 到 输入 端的 Logstash 的 配置 文件 格式 。 


代码 段 6.8: Iogstash 配 置 文件 格式 ,处理 基 于 Tc 传输 的 日 志 数 据 


,默认 为 "server" 


input { 
top{ 
add field=>** # 哈 希 值 ,可 选项 ,默认 为 {} 
codec=>… # 可 选项 ,默认 为 line 
ed # 可 选项 ,默认 为 0.0.0.0 
mode=>… # 可 选项 , 取 值 为 "server"、"client" 之 一 
ove 


Ssl_ cert=>"** 
s3l_enable= >… 
ssl key=>* 


ssl_key Passkhrase= > … 


ssl_ verify=>* 
tags=>… 
ee 


# 必 选项 ,端口 号 , 需 和 通信 的 另 一 端的 端口 号 匹配 
# 一 个 可 用 的 文件 系统 路 径 , 可 选项 

# 布 尔 值 , 可 选项 ,默认 为 false 

# 一 个 可 用 的 文件 系统 路 径 , 可 选项 

# 密 码 ,可 选项 ,默认 为 nil 

# 布 尔 值 , 可 选项 ,默认 为 true 

# 数 组 ,可 选项 

# 字 符 串 ,可 选项 
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1. 将 Logstash 的 input 部 分 作为 客户 端 

首先 ,设计 Java 应 用 程序 并 使 之 充当 服务 器 端 。 用 于 发 送信 息 的 程序 实现 方法 如 代码 
段 6.9 所 示 。 作 为 客户 端的 Logstash 则 基于 TCP ,接收 来 自 服务 器 端 传 来 的 信息 并 显示 
出 来 。 


代码 段 6.9: Java 应 用 程序 (服务 器 端 ) 

import java.io.* > 

jimport java.net .ServerSocket; 

import java.net.Socket; 

public class TepServer { 
Public static void main (String[] args) throws IOException 
InterruptedException { 


ServerSocket serverSocket— new ServerSocket (5656); // 设 定 端口 号 
for(int i=0;i<=3;it +){ // 循 环 4 次 ,结果 如 图 6.12 所 示 
Socket socket= serverSocket.accept (); // 阻 塞 等 待 消息 


OutputStream cutputStreamr socket.getOutputStream(); 
outputStream.write (("Welcome，logstash"+ i) .getBytes ()) 7 
outputStream.close () 7 
Thread.sleep (999999) > 
socket .close (); 
} 
serverSocket.close(); 


» 


其 次 ,配置 Logstash 端 ,如 图 6. 12 所 示 。 注 意 ,这 里 ”fipotT 
的 参数 mode 用 于 设 定 Logstash 作为 客户 端 ,port 指定 的 es 
端口 号 要 和 代码 段 6. 9 中 服务 器 端 所 开启 的 监听 端口 号 de 


port => "5656” 


一 致 。 

最 后 ,依次 启动 Java 应 用 程序 ( 即 启 动 服务 器 端 ,如 
图 6.13 上 图 所 示 )、Logstash( 即 启动 客户 端 , 如 图 6. 13 
下 图 所 示 )。 按 照 代码 段 6. 9 中 的 设计 思路 ,服务 器 端 发 图 6.12 Logstash 端 配 置 
送 指定 的 字符 串 , 可 看 到 由 服务 器 端 发 出 的 信息 已 经 经 过 
Logstash 这 个 管道 流向 了 屏幕 ( 即 客户 端 ,如 图 6. 13 下 图 所 示 ) 。 

2. 将 Logstash 的 input 部 分 作为 服务 器 

首先 ,设计 Java 应 用 程序 并 使 之 作为 客户 端 ,如 代码 段 6. 10 所 示 ; 将 Logstash 的 input 
部 分 作为 服务 器 模式 。 
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Fimport java.io.*; 
import java.net.ServerSocket; 
Diimport java.net.Socket; 


pb public class TcpServer { 
(25 public static void main(String[] args) throws IOException, InterruptedException { 
ServerSocket serverSocket = new ServerSocket( port 5656); // 设 定 端口 号 
for (int i = 80; i <= 3; it) { /循环 4 次 
Socket socket = serverSocket.accept();// 阻 训 等 待 消息 
OutputStream outputStream = socket.getOutputStream(); 
outputStream.write(("Welcome, logstash" + i).getBytes()); 
outputStream.close(); 
Thread. sLeep( millis: 999999); 
socket.close() 直 
} 


serverSocket.close(); 


Ti 


Kt 
“message” -> "Welcome, logstashl", 
“host* -> “192.168.1.104"， 
“port” -> 5656, 
"@timestamp” => 2918-97-93T99:92:25.592Z, 
"@version" => “1" 
} 
{ 
“message” -> "Welcome, logstash2", 
“host” => "192.168.1.104", 
“port" -> 5656, 
"etimestamp”=~> 2018-97-03T09:02:26.5807, 
"@version" -> "1" 
} 
{ 
“message” => "Welcome, logstash3", 
"host" => "192.168.1.104", 
“port" -> 5656, 
“@timestamp” => 2018-97-03T09:02:27.576Z, 
"@version” => “1” 
上 


图 6.13 服务 器 端 设置 (上 ) 及 客户 端 输出 (下 ) 


代码 段 6.10: Java 客户 端 设计 

import java.io.* ; 

import java.net. InetAddress; 

jimport java.net.Socket; 

jimport java.net .UnnownHostExosption; 

import java.io.DataoutputStreamy 

Public class TopClient { 

public static void main(String[] args) 

DataOutputStream dos=- nul17 
BufferedReader brNet= null; 
BufferedReader brkey=null; 
Socket s=null; 
try{ 
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// 建 立 Socket 
二 new Socket (Inetpddress.getByName ("192.168.1.111"), 5656); 
InputStream ips= s.getInputStream(); 
OutputStream cpe= 5.getOutputStream(); 
brkey= new PufferedReader (new InputStreanReader (System.in)); 
dbs= new DataOutputStream(cps) 7 
brNet— new BufferedReader (new InputStreanReader (ips)) 7 
while (true) { 
String strWord= brkey.readLine () 
cbs .writeBytes (strWbrdt System.getProperty ("line.separator")); 
证 (strWord.equalsIgnoreCase ("quit")) 
break; 
else 
System.out.println (strWord) ; 
} 
} catch (UnlmownHostException e) { 
e.printStackTrace () 7 
} catch (ICExosption e) { 
e.PrintStackTrace () 7 


// 后 略 


其 次 ,设计 Logstash 端的 配置 信息 ,如 图 6. 14 所 示 。 注 意 ,这 里 的 mode 参数 是 设 定 
Logstash 作为 服务 器 ,port 参数 指定 的 端口 号 要 和 代码 段 6. 10 中 的 客户 端 端口 设置 相 
匹配 。 


host => "9.9.9.9"” | 
mode => “server™ 
port => "5656” 


图 6.14 Logstash 端 配置 
最 后 ,依次 启动 Logstash( 服 务 器 端 ) 和 Java 应 用 程序 (客户 端 ) 。 在 客户 端 输入 一 些 字 
符 ( 如 图 6. 15 左 侧 所 示 ) ,它们 会 经 由 Logstash 这 个 管道 输送 到 屏幕 上 显示 ,如 图 6. 15 右 
侧 所 示 。 
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", :55l_enable=>"Talse"F 


[2618-67-93T19:14:18,477][INFO ][logstash.pipeline ] Pipel 
E: \tools\javal :thread->"#<Thread:0x55907a0c run>"} 

{2918-07-03T19:14:18,627] [INFO ][logstash.agent ] Pipel 
Connected to 站 { 
hello “@version" -> "1", 
hello message"”=> "hello\r", 


"host" => "192.168.1.194", 
一 


"port” => 66463， 
“@timestanp" => 2918-97-63T11:16:15.653Z 


吓 国 出 + + 


图 6.15 运行 结果 


6.2.6 处 理 基 于 UDP 传输 的 日 志 数据 


和 基于 TCP 的 信息 传输 过 程 类 似 ,Logstash 也 可 从 UDP Socket 中 获取 数据 。 代 码 段 
6. 11 给 出 在 Logstash 配置 文件 中 配置 基于 UDP 传输 数据 流 的 方法 ,图 6. 16 给 出 了 实际 
的 Logstash 配置 。 


UDP 是 用 户 数据 报 协议 ,是 一 个 简单 的 面向 数据 报 的 运输 层 协议 。 由 于 
UDP 在 传输 数据 报 前 不 用 在 客户 和 服务 器 之 间 建 立 连接 且 没 有 超时 重 发 等 机 制 ,故而 
传输 速度 相对 较 快 。 


代码 段 6.11: 基于 UDP 的 Iogstash 配 置 文件 格式 


input { 
udb { 

add field= >… # 哈 希 值 ,可 选项 ,默认 为 {} 
buffer size=>… # 数 值 , 可 选项 ,默认 为 8192 
codec=>… # 编 解码 器 ,可 选项 ,默认 为 Plain 
host=>… # 字 符 串 ,可 选项 ,默认 为 0.0.0.0 
Port= >… # 数 值 , 必 选 项 
queue size= >… # 数 值 , 可 选项 ,默认 为 2000 
tags=>… # 数 组 ,可 选项 
type=>… # 字 符 串 ,可 选项 
workers=>* # 数 值 , 可 选项 ,默认 为 2 


1 


为 验证 运行 效果 ,这 里 设计 了 基于 Java 的 应 用 程序 ,如 代码 段 6. 12 所 示 。 注 意 ,Java 
应 用 程序 中 的 端口 号 应 和 Logstash 配置 文件 中 的 端口 号 一 致 。 依 次 启动 Logstash 和 Java 
应 用 程序 UDPClient, 实际 运行 效果 如 图 6. 17 所 示 。 从 图 中 可 看 出 ,输入 的 信息 
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nput T 
udp 
host -> "8.9.9.9" 
port => "5656” 


局 
loutput{ 
stdout{} 


图 6.16 基于 UDP 的 Logstash 配置 文件 


(图 6. 17 的 左 侧 ) 以 UDP 的 方式 经 由 Logstash 这 个 管道 显示 在 屏幕 上 (图 6. 17 的 右 侧 )。 


代码 段 6.12: 测试 程序 
import java.io.* ; 
import java.net.* ; 
class UDEClient { 
Public static void main (String[] args) throws ICExcepticn { 
DatagramSocket client= new DatagramSocket (); 
InetPddress addr= InetAddress.getByName ("192.168.1.111"); 
int port= 5656; 
while (true) { 
byte[] send= new BufferedReader (new InputStrearReader (System. in)) .readLine () .getBytes 
07 
DatagramPacket. sendPacket 
=new DatagramFacket (send，send.length，addr， port); 
client .send (sendPacket) ; 


“etlmestamp”=> 2018-97-63T11:45:15.979Z, 


"@version”=> 

"message” => 
E: \tools\java’ “host* => "192.168.1.104" 
heLlLo 
worLd "etimestamp" -> 2018-07-03T11:45:20.9112, 
Logstash "eversion” => "1", 

“message” => "Logstash*， 

“host” -> “192.168.1.164" 


6.17 基于 UDP 的 信息 输入 处 理 
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63 codec: 格式 化 日 志 数 据 


在 Logstash 中 ,codec 部 分 可 用 于 格式 化 日 志 数 据 。codecs 使 得 Logstash 可 以 更 方便 
地 与 其 他 自 定义 数据 格式 的 产品 共存 ,如 graphite( 开 源 的 存储 图 形 化 展示 的 组 件 )、fluent、 
netflow、collectd( 守 护 进 程 ,是 一 种 收集 系统 性 能 和 提供 各 种 存储 方式 来 存储 不 同 值 的 机 
制 ), 以 及 使 用 msgpack\json 等 通用 数据 格式 的 其 他 产品 。 


codec 有 针对 avro cef、 cloudfront、 cloudtrail, collectd、 compress_ spooler、 


dots,edn, edn _ lines, es _ bulk, fluent, graphite, gzip _ lines、, json, json _ lines, line、 
msgpack .multiline netflow、 nmap、oldlogstashjson, plain、rubydebug、s3_plain 等 多 种 
数据 来 源 的 插件 ,可 格式 化 相应 的 数据 。 


本 节 主 要 介绍 对 json plain 等 格式 的 数据 的 用 法 。 
6.3.1 json 格式 


可 利用 codec 机 制 解 析 json 格式 的 日 志 数据 (如 json 流 式 数据 是 以 \n 来 分 隔 的 ,可 参 
考 json_lines 方式 )。 代 码 段 6. 13 给 出 了 codec 可 采用 的 字符 集 形式 。 


代码 段 6.13: Logstach 配置 文件 格式 ,使 用 codec 
input { 
file { 
codec=> json { 

charset= >… #string, 必须 是 ["aSCTI- gBIT", "Big5", "Big5- HKSCS"，"Big5- UAO", "CP949", "Fmacs 
一 Male"，"EUC- JP"，"EUC- KR", "EDC- TW", "GB18030", "GEK", "ISO- 8859- 1", "ISO- 8859- 2", "ISO- 8859- 3", " 
ISO- 8859- 4", "ITSO- 8859- 5", "ISO- 8859- 6€", "ISO- 8859- 7", "ISO- 8859- 8", "ISO- 8859- 9", "ISO- 8859- 
10", "ISO- 8859- 11", "ITSO- 8859- 13", "TSO- 8859- 14", "TISO- 8859- 15", "ISO- 8859- 16", "KOI8- R", "KOIS- 
U, "Shift_JIS", "US- RSCTI"，"UTF- 8", "UTEF- 168E", "UTE- 16LE", "UTE- 32BE", "UIF- 32IE", "Windows— 
1251", "GB2312", “TEMA37", "ITEMI37", "IEM775", "CP850", "TEMB52", "CP852", "IEMB55", "CP855", "IEMB57", " 
IEMB60", "TEMB61", "IEMB62", "TEMB63", "TEMB64", "TEMB65", "IEMB66", "TEMB69", "Windows- 1258", "GB1988", " 
macoent Bro", "maccroatian", "mecCyrillic”", "hacGreek", "hecTosland", "macRoman", "macRomania", "macThai", " 
macTurkish", "macUkraine", "CP950", "CP951", "stateless— ISO- 2022- JP"， "eucJP- ms", "CP51932", " 
GB12345", "ISO- 2022- JP"，"ISO- 2022- JP- 2", "CP50220", "CP50221", "Windows— 1252", "Windows— 1250", 


“一 
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"Windows— 1256", "Windows— 1253", "Windows— 1255", "Windows— 1254", "TIS- 620", "Windows— 874", "Windows 
— 1257", "Windows— 31J", "MacJapanese", "UTE- 7", "UTF8- MAC", "UTF- 16", "UTE- 32"，"UTF8- DoCoMp", "SITS 
一 DoccMp"，"UTF8- KDDI™, "SJIS- KDDI™, "TSO- 2022- JP- KDDI", "stateless— ISO- 2022- JP- KDDI", "UTF8- 

SoftBank", "SJIS- SoftBank", "BINARY", "CPA37", "CET3T, "CETIS5", "THMBS0", "CP857", "CPB60", "CPB861", "CPBE2", 
"CP863", "CP864", "CP865", "CP866", "CP869", "CP1258", "Big5— HKSCS:2008", "eucJP", "euc- jp- ms", " 
eucKR", "eucIW", "EDC- CN", "eucCN", "CP936", "IS02022- JP"，"ISO2022- JP2"，"IS08859- 1", "CP1252", ™ 
T508859- 2", "CP1250", "IS08859- 3", "IS08859- 4", "TIS08859- 5", "IS08859- 6", "CP1256", "IS08859- 7", ™ 
CP1253", "TS08859- 8", "CP1255", "TS08859- 9", "CP1254", "IS08859- 10", "TS08859- 11", "CP874", "TS08859- 
13", "CP1257", "IS08859- 14", "ISO8859- 15", "IS08859- 16", "CP878", "CP932", "csWindows31J", "SJIS", " 
FCK", "MacJapan", "ASCII", "ANSI X3.4- 1968", "646", "CP65000", "CP65001", "UTE- 8-MAC", "UTE- 8- HES", " 
UCS- 2BE", "UCS- 4EE", "UCS- ALE", "CP1251", "external", "locale"] 其 中 之 一 (可 选 ), 默认 : "oTF- 8" 

3 


下 面 给 出 codec 和 output 一 起 使 用 的 例子 。 图 6. 18 et 
所 示 的 Logstash 配置 文件 在 output 中 指定 的 数据 格式 } ly 
为 json。 此 后 运行 Logstash, 则 用 户 输入 的 字符 串 会 以 aa ey 
json 格式 显示 。 图 6. 19 为 分 别 输入 了 helloworld 字符 
串 和 this is an example 字符 串 后 的 情况 ,可 以 看 出 ,输入 图 6.18 指定 输出 格式 为 json 的 
的 字符 串 都 被 解析 为 json 格式 的 数据 了 。 Logstash 配置 文件 
如 果 采 用 json_lines, 则 可 解析 按 行 分 隔 的 json 格式 


shiyanshle567:~/jiangyuehua/togstash-6.2.4/bin$ ./logstash -f conf6.6 
Sending Logstash's logs to /home/shiyanshi/jiangyuehua/logstash-6.2.4/logs which is now configured via 1og4j 
[2618-697-93T19:54:41,286][INFO ][logstash.modules.scaffold] Initializing module {:module_name=>"netflow", :d 
on"} 
[2618-697-63T19:54:41,316][INFO ] [logstash.modules.scaffold] Initializing module {:module name=>"fb_apache", 
ration"} 
[2618-67-63T19:54:42,299] [WARN ][logstash.config.source.multilocal] Ignoring the ‘pipelines.yml' file becaus| 
[2618-67- 43,522] [INFO ][1ogstash.runner ] Starting Logstash {"logstash.version"=>"6.2.4"} 
[2618-67- 44,525] [INFO ] [Logstash.agent ] Successfully started Logstash API endpoint {:por| 
[2618-97- 48,176] [INFO ][logstash.pipeline ] Starting pipeline {:pipeline_id=>"main", "pipelil 
[2618-67- 48,567][INFO ] [Logstash.pipeline ] Pipeline started successfully {:pipeline_id=>"mal 
The stdin plugin is now waiting for input: 
[2618-97-63T19:54:48,654][INFO ][logstash.agent ] Pipelines running {:count=>1, :pipelines=>["mainl| 
helloworld 

"@version":"1" “host™ 507" “message” helloworld", "@timestamp":"2018-07-03T11:55:28.2542"}this is example 

", "etimestamp":"2918-97-63T11 47.7212"} 


图 6.19 输出 json 格式 的 数据 


的 日 志 数据 。 代 码 段 6. 14 是 Logstash 配置 文件 , 它 给 出 了 在 UDP 输入 模式 下 的 json_ 
lines 的 用 法 。 
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代码 段 6.14: 在 UDP 输入 模式 中 采用 codec 的 配置 文件 
imput { 
up { 
port=> 5656 


harset= >… # 字 符 串 ,可 选项 ,默认 为 "omF- 8" 


6.3.2 rubydebug 格式 


rubydebug 解析 器 使 用 ruby awesome print 库 来 解析 日 志 格 式 。 图 6. 20 给 出 了 
Logstash 的 配置 信息 ,注意 ,这 里 设置 的 输入 信息 是 json 格式 的 (因此 输入 信息 时 应 采用 
json 格式 ) ,而 数据 输出 时 则 采用 rubydebug 格式 。 图 6. 21 是 实际 运行 结果 ,其 中 第 1 行 是 
输入 的 json 格式 的 数据 ,而 从 第 3 行 开始 输出 的 是 rubydebug 格式 的 信息 。 


FT 
stdin{codec => json} 


邮 
output { 
stdout{codec => rubydebug} 


图 6.20 指定 输出 格式 为 rubydebug 的 Logstash 配置 文件 


{name": “xiaoming"，"age": 18} 
{ 


” => "507", 
。-> “1"， 


”=> 18, 
ame"”=> "Xxiaoming”, 
" => 2618-67-693T12:45:47.816Z 


图 6.21 输出 rubydebug 格式 的 数据 


6.3.3 plain 格式 


plain 是 一 个 空 的 解析 器 ,其 解析 格式 可 以 由 用 户 自行 指定 。 代 码 段 6. 15 给 出 当 
Logstash 输入 源 是 文件 的 情况 下 通过 codec 进行 格式 转换 的 方法 。 图 6. 22 给 出 了 实际 结 
果 , 其 中 ,输出 字符 串 的 部 分 不 带 任何 格式 。 
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代码 段 6.15: Iogstash 输出 采用 Plain 格式 
imput { 
stdinf } 
} 
output { 
stdout{ 
codec= > "plain" 


[2618-67-63T26:11:16,125][INF0O ][logstash.modules.scaffo 

ration"} 

[2918-67-63T26:11:17,186] [WARN ][logstash.config.source. 

:18,496] [INFO ] [Logstash. runner 

,554] [INFO ] [Logstash.agent 

[2618-67-63T26:11:22,553][INF0 ][logstash.pipeline 

[2618-67-63T26:11:22,766][INF0 ][logstash.pipeline 

The stdin plugin is now waiting for input: 
918-97-93T26:11:22,936] [INFO ][logstash.agent 
618-67-03T12:11:35.759Z 567| hellol 


图 6.22 输出 plain 格式 的 数据 


64 及 于 filter 的 日 志 处 理 与 转 模 


在 基于 Logstash 的 日 志 处 理 中 ,往往 要 处 理 多 种 不 同 的 日 志 信息 ,如 Apache 服务 器 日 
志 、Postfix 日 志 (Wietse Venema 在 IBM 公司 的 GPL 协议 下 开发 的 一 种 邮件 传输 代理 软 
件 ) .Java 应 用 程序 或 与 某 种 特定 应 用 相关 的 日 志 信 息 等 (Turnbull,2015)。 前 面 已 经 介绍 
了 如 何 让 Logstash 直接 处 理 各 种 来 源 的 日 志 数据 ,但 尚未 利用 、 抽 取 、 过 滤 这 些 数据 中 可 能 
蕴含 的 元 数据 信息 。 例 如 ,以 下 的 Apache 服务 器 日 志 信息 包含 了 IP 地 址 、 时 间 惟 .HTTP 
方法 .HTTP 响应 模式 等 诸多 信息 。 


186.4.131.228- - [20/Dec/2012:20:34:08 - 0500] "GET /2012/12/new- product/ HTTP/1.0"200 10902 "http://www. 
example.com/20012/12/newr- Product/""Mbzilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.1.3) Gecko/ 
20090824 Firefox/3.5.3" 


对 上 述 日 志 来 说 ,如 果 不 做 任何 解析 处 理 ,而 是 直接 将 这 些 信息 交 给 Logstash, 那 么 即 
使 经 过 Logstash 的 处 理 , 用 户 可 能 也 不 清楚 其 中 的 各 个 部 分 的 含义 。 利 用 Logstash 提供 
的 filter 机 制 可 以 方便 地 按照 用 户 要 求解 析 日 志 信 息 , 如 果 需 要 抽取 、 分 析 、 计 算 可 能 蕴含 
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的 元 数据 信息 ,可 以 利用 Logstash 中 的 filter 机 制 完成 相应 的 功能 。 


‘ 
filter 有 针对 aggregate、alter .anonymizecidr、cipher、clone、collate、csv、date、 
de _ dot、 dissect、 dns、 drop、elapsed、elasticsearch、environment、extractnumbers、 
fingerprint geoip、 grok, il8n, json, json _ encode, kv、 metaevent、 metricize、 metrics、 
mutate ,oui, prune, punct, range, ruby, sleep, split, syslog_pri, throttle, tld, translate、 


urldecode、useragent、uuid、xml、yaml、zeromq 等 多 种 来 源 数 据 的 插件 ,可 过 滤 和 分 析 相 
应 的 数据 。 


限于 篇 幅 , 本 章 只 对 其 中 的 json filter、grok filter、kv filter 进行 介绍 。 
6.4.1 json filter 


如 果 日 志 数 据 源 是 json 格式 的 , 则 利用 filter, 可 将 其 扩展 成 一 个 编程 人 员 所 需要 的 数 
据 结构 。 代 码 段 6. 16 给 出 在 filter 中 使 用 json 格式 数据 的 方法 。 


代码 段 6.16: Logstash 配 置 文件 格式 ,用 于 解析 并 处 理 jscn 格 式 的 数据 为 指定 的 数据 结构 
filter { 
json { 
add field > # 哈 希 值 , 可 选项 ,默认 为 空 
skip cn invalid json=>… # 布 尔 值 , 可 选项 ,默认 为 false 
add tag= >… # 数 组 ,可 选项 ,默认 为 空 
periodic flush= >… # 布 尔 值 ,可 选项 , 默认 为 false 
Temove_ field > # 数 组 ,可 选项 , 默认 为 空 
remove tag=>… # 数 组 ,可 选项 , 默认 为 空 
Souroe=>*** # 字 符 串 , 必 选 项 
target= >… # 字 符 串 ,可 选项 
上 
§ 


对 代码 段 6. 16 中 的 部 分 内 容 解释 如 下 : 

。 add _field: 值 类 型 为 哈 希 值 , 默 认为 空 。 设 置 后 就 会 增加 指定 的 字段 到 这 个 事件 中 。 
。 add_tag: 值 类 型 为 数组 ,默认 为 空 。 若 执行 成 功 , 会 增加 一 个 标签 。 

。 periodic_flush: 值 类 型 为 布尔 值 , 默 认为 false。 定 期 调用 过 滤器 的 清 缓存 方法 。 

。 remove_field: 值 类 型 为 数组 ,默认 为 空 。 若 执行 成 功 , 则 删除 一 个 字段 。 

source: 值 类 型 为 字符 串 ,默认 为 未 设置 。 

skip_on_invalid_json: 值 类 型 为 布尔 值 ,默认 为 false, 跳 过 无 效 的 Json 数据 ,不 
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警告 。 
代码 段 6. 17 给 出 Logstash 的 配置 信息 。 在 input .output 部 分 中 间 的 filter 部 分 和 家 入 
了 对 json 数据 的 解析 方法 ,其 中 的 source 二 二 是 指 要 让 json filter 插件 解析 指定 字段 的 
json 格式 数据 。 例 如 , source 二 二 "message" 是 让 json filter 解析 message 字段 的 数据 。 
图 6.23 给 出 了 实际 的 运行 结果 。 当 用 户 输入 json 格式 的 数据 后 ,Logstash 的 filter 会 对 输 
入 信息 进行 加 工 处 理 。 在 此 例 中 ,用 户 输入 的 字符 串 是 {"name": "lily"，"age" :13} ,经 处 
理 后 返回 的 结果 显示 在 图 6. 23 下 方 。 


代码 段 6.17: 基于 jscn filter 的 Iogstash 配 置 文件 
input { 
stdin{ } 
} 
filter { 
json { 


source= > "message" 


{"name": "lily”, “age”: 13} 
{ 


"message” => "{\"name\": \"lily\", \"age\": 13}" 
"@version"” => "1", 
"host” => "507", 
"@timestamp” => 2618-97-93T12:49:59.995Z, 
“name” => "Lity"， 
"age" => 13 


图 6.23 对 json 格式 数据 的 filter 处 理 结果 


6.4.2 grok filter 


grok 是 一 个 数据 结构 化 工具 。 利 用 它 , 只 需要 通过 简单 定义 ,就 可 将 文本 格式 的 字符 
串 转换 为 结构 化 的 数据 。Logstash 默认 带 有 上 百 个 grok 变量 ,可 以 直接 使 用 ,或 者 稍 加 改 
动 , 变 成 自 定义 的 grok。grok filter 适合 对 syslog、Apache log 等 可 读 日 志 的 解析 。 代 码 
段 6. 18 给 出 基于 grok filter 的 Logstash 配置 文件 格式 ,其 中 的 add_field 等 的 含义 同上 ,不 
再 费 述 。 
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代码 段 6.18: 基于 grok filter 的 Iogstash 配 置 文件 格式 
filter { 
grok { 

add field= >… 
add tag=>… 
break on match= >… # 布 尔 值 , 可 选项 ,默认 为 true 
Jeep arpty captures=>… # 布 尔 值 , 可 选项 ,默认 为 false 
match=>… # 哈 希 值 ,可 选项 ,默认 为 空 
mamed captures only=>"* # 布 尔 值 , 可 选项 ,默认 为 true 
overwrite= > … # 数 组 ,可 选项 ,默认 为 空 
pattems dir >… # 数 组 ,可 选项 ,默认 为 空 
pattemns files glcb=>… # 字 符 串 ,可 选项 ,默认 为 * 
periodic flush=>* 
remove field >… # 数 组 ,可 选项 ,默认 为 空 
Temove tag- > 
tag_ cn_failure= >… # 数 组 ,可 选项 ,默认 为 ["_grokparsefailure"] 
tag_on timeout=>… # 字 符 串 ,可 选项 ,默认 为 _groktimeout 
timeout millis=>… # 数 值 , 可 选项 ,默认 为 2000 

} 


代码 段 6. 19 给 出 了 一 个 基于 grok filter 的 Logstash 配置 实例 。 注 意 如 下 代码 : 


match= > { "message"= > ${TIMESTAMP ISO8601:timestamp} $%{IOSLEVEL:l0g- level} 
\ S${DATA:class}\] %{GREEDYDATA:message}" } 

其 中 ,match 是 一 个 喻 希 类 型 的 集合 。 其 键 部 分 指定 了 需要 匹配 的 字段 ,如 本 例 中 需要 匹配 
message 字段 的 数据 ;其 后 的 值 部 分 则 使 用 正则 匹配 字符 串 并 为 它们 分 别 指定 一 个 名 字 ,本 
例 包 括 如 下 几 项 : 

。 按 TIMESTAMP_ISO8601 正则 项 匹配 文本 并 指定 其 变量 名 为 timestamp。 

。 按 LOGLEVEL 正则 项 匹配 文本 并 指定 其 变量 名 为 log-level。 

。 按 DATA 正则 项 匹配 文本 并 指定 其 变量 名 为 class。 

。 按 GREEDYDATA 正则 项 匹配 文本 并 指定 其 变量 名 为 message。 


2 
GitHub 提供 了 大 量 的 已 经 定义 好 的 模式 ,用 户 可 以 轻松 组 合 各 种 模式 ,满足 
不 同 场景 和 特殊 的 需求 。 可 从 GitHub 的 官方 网 站 查阅 具体 信息 ,链接 地 址 为 https:// 


github. com/logstash-plugins/logstash-patterns-core/tree/master/patterns。 


在 此 基础 上 ,Logstash 可 对 用 户 输入 的 内 容 进行 解析 。 


天 二 
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代码 段 6.19: 基于 grok filter 的 Iogstash 配 置 实例 
imput { 

stdin{ } 
} 
filter { 

grok { 

mtde > { "message'— > %{TIMESIMP T308601:timestanp} $%{IOSIEVEL:l0g- level} 
\ [S$ {DATA:class}\] ${GREEDYDATA:message}" ] 


‘ 
区 出 于 正则 匹配 的 模糊 性 ,如 果 开 始 就 将 所 有 正则 项 写 好 ,一 旦 其 中 有 一 个 变量 
不 能 匹配 到 正确 文本 ,就 可 能 会 带 来 调试 上 的 麻烦 。 所 以 ,推荐 先 使 用 贪 禁 策略 匹配 整 
个 字符 囊 , 然 后 逐个 添加 需要 匹配 的 字段 ,例如 : 


% {GREEDYDATA:message} # 先 匹配 整个 字符 串 
% {TIMESTAMP ISO08601:timestamp} %{GREEDYDATA:message} # 再 尝试 添加 匹配 项 


例如 , 当 处 理 *2018-07-03T23:56:42. 000 十 00:00 INFO [servlet. mvc. annotation. 
DefaultAnnotationHandlerMapping: 315 ] Mapped URL path [/system/negative/index |] 
onto handler negativeAction” 日 志 信息 时 ,按照 代码 段 6. 19 中 的 Logstash 配置 文件 conf. 
conf 进行 解析 ,会 得 到 如 图 6. 24 所 示 的 结果 (大 括号 中 的 内 容 是 解析 后 的 结果 ) 。 


618-67-63T23:56:42.696+66:69 INFO [servLet.mvc.annot] 
n° 
{ 
"timestamp”=>“2918-67-63T23:56:42.999+69:69"， 
"Log-tevet" => "INFO"， 
“class" => "servlet .mvc.annotation.DefauttAnn| 
"@version" => "1" 
"message” => [ 
[6] “2618-97-63T23:56:42.996+66:69 INFO [sei 
negativeAction'", 
[1] “Mapped URL path [/system/negative/index] 


"@timestamp" => 2918-97-95T93:16:28.132Z, 
"host" => "507" 


6.24 基于 grok filter 的 处 理 结果 
6.4.3 kv filter 


kv filter 用 于 解析 键 值 对 数据 。 代 码 段 6. 20 给 出 基于 kv filter 的 Logstash 配置 。 其 
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中 ,field_split 用 来 设置 分 隔 符 , 代 码 kv {field_split 二 之 "&?"} 的 含义 是 说 明 字符 串 分 隔 符 
是 && 或 者 ?。 例 如 ,在 图 6. 25 中 ,用 户 输入 的 日 志 字 符 串 是 http://www. baidu. com/s? 
wd= WE4%B8%AD%E5 HIBHBDRrsv_spt=1&issp=1&f{=8&rsv_bp=0&.rsv_idx 
2&.ie=utf-8&.tn= SE_hldp01550_7zn76813&rsv_enter= 1&.rsv_sug3=2&rsv_sugl 一 
1&rsv_sug2 一 0&inputT 一 2950&rsv_sug4 一 2951&rsv_sug 一 2, 经 过 Logstash 的 处 理 后 ， 
得 到 以 & 或 ?分 隔 的 子 字 串 。 


代码 段 6.20: 基于 kv filter 的 Iogstash 配 置 文件 
input { 
stdin { } 
} 
filter { 
kw { 
field split= > "&?" 


ttp://www.balduy .com/Ss?wd=%E 4%B8%ADSE SHI9BYBDErsv_spt=1&1sSp| 
nputT=2950&rsv_sug4=2951&rsv_sug=2 
{ 


"tn" => "SE_hldp91550 7zn76813", 

“rsv_sug4" => "2951", 

"inputT" => "2950", 

"rsv_sugl" => "1"， 
"@timestamp” => 8-67-95T64:15:12.869Z, 

"@version" => "1"， 

"wd" => "$%E4%B8%ADYE SIBNBD", 
"message”=> "http://www.baidu.com/s?wd=%E4%B8%ADSE: 


v_sugl=1&rsv_sug2=0&inputT=2950&rsv_sug4=2951&rsv_sug=2", 
"rsv_enter” => "1"， 
"rsV_sug2" = 


"rsv_sug3" 
"rsv_sug" 
“rsv_spt” 
“rsv_idx" 


6.25 基于 kv filter 的 处 理 结果 


从 图 6. 25 中 还 可 以 看 出 ,解析 出 的 查询 字符 串 wd 是 URL 字符 串 模式 (为 %E4% 


SN 
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B8%AD%E5%9B%BD) ,而 并 非 用 户 在 键盘 输入 的 可 以 识别 的 中 文字 符 串 (应 该 是 “中 国 ” 
二 字 )。 为 解决 上 述 问题 ,只 需要 在 配置 文件 中 添加 urldecode 部 分 即 可 , 详 见 代码 段 6. 21， 
基于 该 配置 文件 的 Logstash 处 理 结 果 如 图 6. 26 所 示 。 可 以 清楚 地 看 到 ,图 6. 26 已 经 顺利 
解析 出 了 wd 中 隐 含 的 内 容 。 


代码 段 6.21: 基于 kv filter 和 urldecode 的 Iogstash 配 置 文件 
input { 
stdin{ } 
} 
filter { 
kl{ 
field split=>"g?" # 说 明 字符 串 分 隔 符 是 < 或 者 ? 
本 
urldecode { 


field- >wd # 说 明 解 码 字 段 是 wa 


http://www.baidu.com/S?wd=SE4%B8SADSE5S%9BSBD&rsv_spt=1&issp=1l&f=8&rs 
V_bp=6&rsv_idx=2&ie=utf-8Stn=SE_htdp91556_7zn76813&rsv_enter=l&rsv_s 
Ug3=2&rsv_Sugl=1&rsv_sug2=0&inputT=2950&rsv_sug4=2951&Tsv_sug=2 

| 


"wi" =->“ 中 国 "， 
"rsv_sug2" => "0", 
"tn" => "SE_hldp91559_7zn76813", 
“@timestamp" => 2618-67-65T65:41:29.471Z, 
“f* > “8", 
~ 


“host" “507", 
"rsv_sugl" 
issp" => 
"rsv_idx" => "2 
“rsv_bp”=> “9"， 
"ie" => "utf-8", 
"@version" => "1”, 


"rsv_sug3" => "2", 

"message" => "http://www.baidu.com/s?wd=%E4%B8%ADYESYIBNBDErS 
V_spt=l&issp=l&f-8&rsv_bp=9&rsv_idx=2&ie=utf-8&tn=SE_htdp91559_7zn76 
813&rsv_enter=l&rsv_su93-2&rsv_sug1=l&rsv_sug2-6&inputT=2950&rsv_sug 
4-2951&rsv_sug=2"， 


1 
1 
“2956", 
"2951", 
"2° 


6.26 基于 kv filter 和 urldecode 的 处 理 结果 
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地 
urldecode 是 对 字符 囊 进行 解码 ,其 返回 值 是 已 解码 的 字符 事 。 其 解码 规则 一 
般 是 : 数字 和 字母 不 变 ,空格 变 为 十 ,其 他 字符 被 解码 ,例如 “中 国 ”二 字 的 解码 形式 为 
%E4%B8%AD%E5%9B%BD( 在 每 个 字 节 前 加 %)。 


65 ”output: 输出 日 志 数 根 


前 面 已 经 对 Logstash 中 的 input、codec,filter 进行 了 介绍 。 在 Logstash 配置 文件 的 
output 部 分 ,可 以 使 用 stdout 把 经 由 Logstash 处 理 的 日 志 传送 到 显示 器 上 输出 。 当 然 ,在 
设置 输出 时 ,也 可 以 在 stdout 中 同时 设置 codec, 如 代码 段 6. 21 所 示 。 其 实 , 当 Logstash 处 
理 完 日 志 数 据 后 ,不 仅 可 以 在 显示 器 上 显示 ,也 可 根据 需要 使 用 elasticsearch .email redis、 
file 等 插件 来 完成 输出 。 


! 

Logstash 可 以 将 处 理 之 后 的 数据 使 用 boundary、circonus、cloudwatch、csv、 
datadog .datadog_metrics elasticsearch .email ,exec \file .ganglia gelf google_bigquery、 
google_cloud_storage、 graphite、 graphtastic、 hipchat、http、influxdb、irc、jira、 
juggernaut ,kafka librato, loggly lumberjack metriccatcher .mongodb .nagios .nagios__ 
nsca, newrelic、opentsdb 、pagerduty、pipe、rabbitmq 、rackspace 、redis 、redmine 、riak、 
riemann、 s3、 sns、 solr_http、 sqs、 statsd、 stdout、 stomp、 syslog、 tcp、 udp、webhdfs、 
websocket、xmpp、zabbix、zeromq 等 插件 进行 输出 。 


本 节 介 绍 输出 日 志 数 据 文件 的 方法 。 
6.5.1 将 处 理 后 的 日 志 输 出 到 Elasticsearch 中 


通过 设置 Logstash 的 output 部 分 中 的 elasticsearch 部 分 ,可 将 Elasticsearch 作为 处 理 
日 志 的 接收 端 。 这 种 方式 可 以 将 收集 到 的 日 志 通 过 HTTP 接口 存放 到 Elasticsearch 中 。 
代码 段 6. 22 给 出 Logstash 配置 文件 中 的 output 部 分 的 设置 。 


代码 段 6.22: Logstash 配 置 文件 中 的 output 部 分 的 格式 
output { 
elasticsearch { 
codec=>… # 编 解码 器 ,可 选项 ,默认 为 plain 
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abcument id=> # 字 符 串 ,可 选项 
flush size=>… # 数 值 ,可 选项 ,默认 为 500 
hosts=>… # 数 组 ,可 选项 ,Elasticsearch 服务 器 的 主机 列表 ,默认 
# 为 数组 [m127.0.0.1"] 
iale flush time=>* # 数 值 ,可 选项 ,默认 为 1 
indes= >… # 字 符 串 ,可 选项 ,默认 为 "logstash- ${+ YYYY.MM.dd}" 
manage_template=>… # 布 尔 值 ,可 选项 ,默认 为 true 
Password= > … # 密 码 ,可 选项 
template=> … # 有 效 的 文件 路 径 , 可 选项 
template name=>… # 字 符 串 ,可 选项 ,默认 为 logstash 
template overwrite=>… # 布 尔 值 , 可 选项 ,默认 为 false 
user=>… # 字 符 串 ,可 选项 
} 
} 


代码 段 6. 23 给 出 了 一 个 完整 的 Logstash 配置 文件 实例 ,实际 运行 结果 如 图 6. 27 
所 示 。 


代码 段 6.23: Logstash 配置 文件 ,用 Elasticsearch 作 为 日 志 接 收 端 


input { 
stdin{ } 
} 
output { 
elasticsearch { # 通 过 HTTP 方 式 将 数据 传输 到 Plasticsearch 中 
hosts=> ["localhost"] # 指 定数 组 形式 的 主机 列表 
} 
stdout{} 


后 ,依次 启动 Elasticsearch、Logstash, 可 在 控制 台 输 入 部 分 字符 。 根 据 代 码 段 6. 23 
中 的 设置 ,输入 的 信息 既 可 显示 在 屏幕 上 ,也 会 存 人 Elasticsearch 中 。 图 6. 27 是 将 数据 存 
入 Elasticsearch 索引 文件 后 的 结果 。 


查询 5 个 分 片 中 用 的 5 个 . 552 命中 . 耗 时 0.011 秒 
index ‘type id message 
logstash-2018.07.02 doc SEWmWWQBMC1EBcTh6GCM 1 Copyright 2012-2018 Elasticsearch 
logstash-2018.07.02 doc 7TEWMWWQBMC1EBCTh6GCM 1 
a -2018.07.02 doc ER 1 


图 6.27 存 人 Elasticsearch 索引 文件 的 信息 
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6.5.2 将 处 理 后 的 日 志 输 出 到 文件 中 


Logstash 也 可 以 将 收集 到 的 日 志 ( 经 处 理 后 ) 输 出 到 一 个 指定 的 文件 中 (可 以 用 域 中 的 
一 些 值 作为 文件 名 或 者 路 径 名 ) 。 在 代码 段 6. 24 的 Logstash 配置 文件 中 指定 用 文件 作为 
日 志 接收 端 。 


代码 段 6.24: Iogstash 配 置 文件 格式 ,用 文件 作为 日 志 接收 端 


cutput { 
Hilet{ 
codec=>… 
flush interval=>… 


gzipr > 和 # 布 尔 值 ,可 选项 ,默认 为 false 
Pathb=>… # 字 符 串 , 必 选 项 , 待 存放 文件 的 路 径 
workers=>… # 数 值 ,可 选项 ,默认 为 1 


# 编 解码 器 ,可 选项 ,默认 为 json_lines 
# 数 组 ,可 选项 ,默认 为 2 


作为 实例 ,代码 段 6. 25 给 出 一 个 完整 的 Logstash 配置 文件 。 其 中 ,field_split 这 个 参 
数 用 来 设置 分 隔 符 ( 由 于 这 里 给 出 的 日 志 字符 串 是 用 户 输入 的 URL, 因 此 指定 & 或 ?作为 
分 隔 符 ) ,urldecode 用 于 对 字符 串 进行 URL 解码 。URL 字符 串 经 过 Logstash 处 理 后 , 存 
入 指定 的 文件 中 ,如 图 6. 28 所 示 。 


代码 段 6.25: 用 指定 路 径 的 文件 来 存放 处 理 后 的 日 志 信息 
input { 

stdin { } 
} 
filter { 

kv { 

field split=> "&2" 
} 
urldecode { 
field=>wd 
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“rsv_sug4":"2951", "issp" 

i ,spt":"l “wtn":"SE hldp01550 7 
pn76813", "rsv. 2 , "message": "http://www.baidu.com/s?wd=%E4%B 
BADSE SN9BABDErSV 人 bp=0Ersv_idx=2&ie=utf-85tn= 


BE_hldp91550 7zn76813&rsv 4 enter=1&rsv Su 
下 


"rsv_5ug3": 
"rsv idx": 


6.28 存 人 文件 中 的 处 理 后 的 日 志 信息 


2 in putT":"2950"} 


6.5.3 将 处 理 后 的 日 志 输 出 到 csv 文件 中 


通过 对 启动 配置 文件 的 设置 ,也 可 以 将 收集 到 的 日 志 以 csv 的 格式 输出 到 指定 
中 。 代 码 段 6. 26 给 出 Logstash 配置 文件 中 有 关 使 用 csv 插件 输出 的 部 分 。 


的 文件 


代码 段 6.26: Iogstash 配 置 文件 格式 ,用 csv 作 为 日 志 接收 端 


flush interval 一 >… 


cutput { 
csvi{ 
codec=>… # 编 解码 器 ,可 选项 ,默认 为 Plain 
csv_options=>… # 哈 希 值 ,可 选项 ,默认 为 空 
fields=>… # 数 组 , 必 选 项 ,指定 csv 中 各 个 域 的 名 称 


# 数 值 , 可 选项 ,默认 为 2 


gzip=>"" # 布 尔 值 , 可 选项 ,默认 为 false 
path= >… # 字 符 串 , 必 选 项 ,指定 输出 的 csv 文 件 路 径 
workers= > # 数 值 , 可 选项 ,默认 为 1 
} 
} 
代码 段 6. 27 给 出 了 一 个 完整 的 Logstash 配置 文件 ,从 中 可 以 看 出 ,在 对 输入 的 日 志 


符 串 进行 kv filter、urldecode 等 处 理 后 ,将 解析 的 部 分 字段 结果 (如 @timestamp、host、wd 
等 部 分 ) 存 人 指定 的 文件 中 ,结果 如 图 6. 29 所 示 。 


代码 段 6.27: Logstash 配置 文件 ,用 csv 作 为 日 志 接收 端 
inmput { 
stdin { } 
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filter { 
kv { 
field split=- > "&2n 
} 
urldecode 1 
field- >wa 


} 
cutput { 
csv{ 
path= > "/l0og.txt" 
fields=> ["@ timestanp", "host", "wi"] 
} 
stdout { 
codec= >plain 
} 


Shiyanshiese7: A -6.2.4/bins cat Tog.csv 
[2618-97-65T96:17:21.946zZ,567, 中 | 


图 6.29 存 人 csv 文件 中 的 处 理 后 的 部 分 日 志 信 息 


6.5.4 将 处 理 后 的 日 志 输 出 到 redis 中 


Logstash 可 以 将 处 理 后 的 日 志 输 出 redis 中 。 通 过 在 Logstash 配置 文件 的 output 
部 分 使 用 redis 插件 ,可 以 将 处 理 之 后 的 日 志 信 息 输出 到 redis 中 。 代 码 段 6. 28 给 出 


Logstash 配置 文件 的 output 中 redis ioeh 实现 方法 。 


代码 段 6.28: Logstash 配置 文件 格式 ,有 关 output 中 redis 的 部 分 


cutput { 
redis { 

Patch=>… # 布 尔 值 , 可 选项 ,默认 为 false 
batch events=>… # 数 值 , 可 选项 ,默认 为 50 
batch timeout=>… # 数 值 ,可 选项 ,默认 为 5 
codec=->… # 编 解码 器 ,可 选项 ,默认 为 Plain 
congestion interval=>… # 数 值 , 可 选项 ,默认 为 1 
congestion thresholdr>… # 数 值 ,可 选项 ,默认 为 0 


data type=>… # 字 符 串 , 取 值 为 "list"、"channel" 之 一 ,可 选项 
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人 # 数 值 ,可 选项 ,默认 为 0 
host=>… # 数 组 ,可 选项 ,默认 为 ["127.0.0.1"] 
JE->… # 字 符 串 ,可 选项 
password= > # 布 尔 值 , 可 选项 
Port=>… # 数 值 ,可 选项 ,默认 为 6379 
Teconnect interval 一 >… # 数 值 , 可 选项 ,默认 为 1 
shuffle hosts=>…- # 布 尔 值 ,可 选项 ,默认 为 true 
timeout=>… # 数 值 , 可 选项 ,默认 为 5 
workers=>… # 数 值 , 可 选项 ,默认 为 1 

} 

} 


代码 段 6. 29 给 出 Logstash 配置 文件 中 data_type 基于 列表 的 实现 。 


代码 段 6.29: Iogstash 配 置 文件 
input { 
stdin { } 
} 
output { 
redis { 
data type=> "list" 
host=> ["127.0.0.1"] 
key= > "exampleln # 给 定 的 列表 名 称 ,这 里 是 一 个 示例 字符 串 
password= > 123456 # 对 应 于 redis 的 密码 


} 


依次 启动 redis 的 服务 器 端 和 客户 端 。 基 于 代码 段 6. 29 的 配置 文件 启动 Logstash。 
在 Logstash 控制 台 输 入 测试 字符 串 ,切换 到 redis 的 客户 端 ,输入 lrange examplel 0 -1( 注 
意 .这 里 的 示例 字符 串 examplel 要 和 代码 段 6. 29 中 的 key 值 匹 配 ) 。 


寻 
cp redis 中 的 语句 lrange key 一 start 二 一 stop 二 的 作用 是 返回 列表 key 中 在 指 
定 区 间 内 的 元 素 , 区 间 以 偏 移 量 start 和 stop 指定 ,参数 start 和 stop 都 从 0 开始 ,0 表 
示 列 表 的 第 1 个 元 素 ,1 表示 列表 的 第 2 个 元 素 , 一 1 表示 列表 的 最 后 一 个 元 素 , 一 2 表 
示 列 表 的 倒数 第 二 个 元 素 , 以 此 类 推 。 


代码 段 6. 29 给 出 Logstash 配置 文件 中 基于 列表 的 完整 例子 。 和 在 input 中 的 情况 类 
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似 , 如 果 将 这 里 的 data_type 王 二 "list" 改 成 data_type 一 二 "channel" , 则 输出 信息 会 以 
channel 的 方式 注入 redis 中 。 图 6. 30 给 出 了 基于 channel 的 redis 输出 结果 。 注 意 ,在 测 
试 时 要 用 subscribe 命令 ,上 且 其 后 的 channel 名 称 应 和 在 Logstash 中 定义 的 一 致 (例子 中 使 
用 的 channel 名 称 为 example2 ,如 图 6. 30 左 侧 所 示 ) 。 


加 redis 中 的 语句 subscribe channel [channel ...] 用 于 订阅 给 定 的 一 个 或 多 个 频 
道 的 信息 。 例 如 输入 subscribe msg chat_room, 可 能 会 返回 如 下 信息 : 


1) "subscribe" # 返 回 值 的 类 型 ,表示 订阅 成 功 
2) "meg" # 订 阅 的 频道 名 字 
3) (integer) 1 # 目 前 已 订阅 的 频道 数量 


{2918-97-05T15:56:42, 116][INFO ][\ogstash.modules.scaffold] Initializing module { 
ok, tion"} 
127.6.9.1:6379> subscribe example2 【2618-67-65T15:56:43,611] [WARN ] [Logstash.config.source.muttitocat] Ignoring the 
Reading messages... (press Ctrl-C to quit) 12618-67-65T15:56:44,419] [INFO ] [logstash. runner ] Starting Logstash {1 
1) “subscribe” || [2618-67-65T15: ,445] [INFO ] [logstash.agent ] Successfully started 


2) “example2" [2918-97-95T15:56:49,245] [INFO ][logstash.pipeline ] Starting pipeline {:p: 
3) (integer) 1 [2918-97-05T15:56:49, 524] [INFO ] [Logstash.pipetine ] Pipeline started succ 
1) “nessage” The stdin plugin is now waiting for input: 
| (2918-07-05T15:56:49, 727] [INFO 1[\ogstash.agent ] Pipelines running {:cd 
hello redis 


图 6.30 日 志 以 channel 的 方式 输出 到 redis 中 ( 左 为 redis 输入 端 , 右 为 Logstash 输出 端 ) 


6.5.5 将 处 理 后 的 日 志 通过 UDP 输出 


在 Logstash 配置 文件 的 output 部 分 可 以 使 用 UDP 的 方式 将 日 志 通 过 网 络 发 送 到 另 
外 一 台 主机 上 。 代 码 段 6. 30 给 出 部 分 基于 UDP 方式 输出 文件 的 Logstash 配置 文件 格式 。 


代码 段 6.30: Logstash 配置 文件 格式 
output { 
udp { 
codec=>… # 编 解码 器 ,可 选项 ,默认 为 json 
host=>… # 字 符 串 , 必 选 项 
Port=>… # 数 值 , 必 选项 
workers=>… # 数 值 , 可 选项 , 默认 为 1 
} 
} 


代码 段 6. 31 给 出 了 完整 的 Logstash 配置 文件 内 容 。 


六 全 
1' 2021 大 数据 搜索 与 控 据 及 可 视 化 管理 方案 一 Elastic Sack 6: Elasticsearch、Logstash、Kibana、X-Pack、Beats ( 第 4 版 ) 


代码 段 6.31: Iogstash 配 置 文件 
input { 
stdin { } 
} 
output { 
up { 
host= > "127.0.0.1" 
Port= > 5656 
} 
} 


为 测试 效果 ,代码 段 6. 32 给 出 UDPClient( 即 传输 数据 的 接收 端 ) 的 Java 实现 。 


代码 段 6.32: Upeclient 
import java.io.* ; 
import java.net.* ; 
class UDPClient { 
Public static void main (String[] args) throws IOExosption { 
InetAddress addr= InetAddress.getByName ("localhost"); 


int port= 5656; // 这 个 端口 号 要 和 Logstash 配置 文件 中 的 端口 号 一 致 
DatagramSocket client= new DatagramSocket (port,addr); 
while (true) { 


byte[] recvBuf= new byte[100]; 

DatagramPacket. recvPacket— new DatagramPacket (recvBuf, recvBuf. 
length); 

client.receive (recvPacket); 

String recvStr= new String (recvPacket .getData(), 0,recvPacket. 
getLength ())7 

System.cut.println (路 到 :"+ recvstr); 


实际 运行 结果 如 图 6. 31 所 示 。 图 6. 31 的 上 部 是 输入 的 信息 ,经 过 Logstash 这 个 基于 
UDP 的 输出 管道 后 ,处 理 之 后 的 信息 如 图 6. 31 的 下 部 所 示 。 


6.5.6 将 处 理 后 的 日 志 通过 TCP 输出 


Logstash 可 以 将 处 理 后 的 日 志 从 TCP Socket 中 输出 。 代 码 段 6. 33 给 出 了 Logstash 
的 output 部 分 中 有 关 TCP 的 设置 。 


第 6 章 ”基于 Logstash 的 日 志 处 理 


人 


1203) 
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Ey -5.2.00Iny .7109ST3ST -T .7ConT.ConT 
Sending Logstash's logs to /home/shiyanshi/jiangyuehua/logstash-6.2.4/logs which is now configured via 1og4j2.prop| 
[2918-07-95T16:99:26, 596][INFO ][logstash.modules.scaffold] Initializing module {:module name=>"netflow", :directo 
es/netflow/configuration"} 
[2918-97-95T16:69:26,539][INFO ][logstash.modules.scaffold] Initializing module {:module name=>"fb_apache”, :direc 
ules/ fb_apache/configuration"} 
[2918-07-05T16:09:27,547] [WARN ][logstash.config.source.multilocal] Ignoring the ‘pipelines.ynl' file because modul 
【2918-97-95T16:99:28,834] [INFO ] [1ogstash. runner ] Starting Logstash {"logstash.version"=>"6.2.4"} 
29,786] [INFO ][logstash.agent ] Successfully started Logstash API endpoint {:port=: 
32,941] [INFO ][logstash.pipeline ] Starting pipeline {:pipeline_id=>"main", “pipelin 


wo 


-65T16:69:33,121] [INFO ][logstash.pipeline ] Pipeline started successfully {:pipeline_id->"main", : 
[rhe stdin plugin is now waiting for input: 

[2918-07-05T16:09:33,286] [INFO ][logstash.agent ] Pipelines running {:count=>1, :pipelines=>["main"]} 
hello udp 


加 仅 棕 文本 发 送 到 当前 选项 卡 


ssh://shiyanshi@192.168.1,111:22 
Er\tools\javal. 
收 到 :{“host":"587","@version":"1"， hello udp","@timestamp":"2018-07-05T88:19:06.1687"} 


图 6.31 日 志 经 UDP 方式 输出 


代码 段 6.33: Logstash 配置 文件 格式 (有 关 output 的 设置 ) 
output { 
tap { 
codec=>… # 编 解码 器 ,可 选项 ,默认 为 json 
host=>… # 字 符 串 , 必 选项 
mode= >… # 字 符 串 , 取 值 为 "server","client" 之 一 ,可 选项 ,默认 为 "client" 
Port=>* # 数 值 , 必 选 项 
Teconnect interval=>… # 数 值 ,可 选项 ,默认 为 10 
Workers=>… # 数 值 ,可 选项 ,默认 为 1 
} 
} 


将 处 理 后 的 部 分 日 志 通 过 TCP 输出 ,又 分 为 两 种 情况 , 即 output 分 别 作 为 客户 端 和 服 
务 器 端 。 

1. 将 Logstash 的 output 作为 客户 端 

首先 ,设计 Java 应 用 程序 并 使 之 作为 服务 器 端 ;作为 客户 端的 Logstash 则 基于 TCP 
发 送 处 理 之 后 的 日 志 信 息 到 服务 器 端 ,TCP 服务 器 端的 代码 如 代码 段 6. 34 所 示 。 


代码 段 6.34: TCP 服 务 器 端的 设计 
jimport java.io.* ; 

import java.net..ServerSocket; 
import java.net..Socket; 

Public class TCPServer output { 
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Public static void main (String[] args) throws IOExcepticon { 
ServerSocket serverSocket— new ServerSocket (5656) ; 
Socket socket— serverSocket.accept()7 
InputStream inputStreamr socket.getInputStream(); 
while (true) { 

byte[] bu 全 new byte[1024]; 
int len= inputStream.read (ouf); 
System.out.Println (new String (buf, 0, len)); 


|, 


其 次 ,设计 Logstash 端的 配置 文件 ,如 代码 段 6. 35 所 示 。 注 意 ,这 里 是 设 定 Logstash 
作为 客户 端 。 端 口号 要 和 代码 段 6. 34 中 的 ServerSocket serverSocket 二 new ServerSocket 
(5656) 设 置 匹配 。 


代码 段 6.35: Logstash 配置 文件 
input { 
stdin{} 
} 
output { 
stdout { codec=> rubydebug } 
top{ 
host= > "localhost" 
Port= > 5656 
mode= > "client" 
} 
} 


最 后 ,依次 启动 Java 应 用 程序 (服务 器 端 )、Logstash( 客 户 端 )。 按 照 代码 段 6. 34 中 的 
设计 思路 ,服务 器 端 接收 在 Logstash 端 得 到 的 日 志 信 息 。 在 图 6. 32 上 部 的 控制 台 是 
Logstash 端 ,这 里 用 输入 的 字符 hello tcp 模拟 传输 到 Logstash 的 日 志 信 息 , 它 们 会 被 传递 
到 服务 器 端 显示 ( 见 图 6. 32 的 下 部 ) 。 


2. 将 Logstash 的 output 作为 服务 器 端 
为 验证 Logstash 的 output 作为 服务 器 端的 运行 效果 ,这 里 设计 Java 应 用 程序 并 使 之 
作为 客户 端 , 如 代码 段 6. 36 所 示 。 
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[2618-67-65T16:16:21,499][INF0 ][Logstash.agent ] Pipelines running {:count=>1, :pipelines=>["main"]} 
hello tcp 
{ 
"etimestamp”=> 2618-97-65T68:16:26.354Z, 
”message" => "hello tcp"， 
"host” => "507", 
"@version" => "1" 


较 仅 村 文本 发 送 到 当前 选项 卡 
ssh://shiyanshi@192.168.1.111:22 


E:\tools\javal. 8\bin\java “javaagent:C:\Program Files\jetBrains\Intelli] IDEA 2017.3.4\1ib\idea 
{"@timestamp":"2018-07-05T08:16:26.3547", “message”™:"hello tcp”,"host":"507","@version":"1"} 


图 6.32 日 志 经 TCP 方 式 输出 (Logstash 作为 客户 端 ) 


代码 段 6.36: TcP 客 户 端 的 设计 
import java.io.* ; 
jimport java.net.InetAddress; 
import java.net.Socket; 
piblic class TCEClient output { 
Public static void main (String[] args) { 
DataoutputStream dos= null; 
BufferedReader brNet= null; 
BufferedReader brkey= null; 
Socket s=null; 
try{ 
// 建 立 socket 
5= new Socket (InetAddress.getByName ("localhost"), 5656); 
InputStream ipes= s.getInputStream(); 
while (true) { 
byte[] bu 全 new byte[1024]; 
int len= ips.read (buf); 
System.cut.Println (new String (buf, 0, len)); 


// 后 略 


Logstash 端 output 部 分 的 配置 如 代码 段 6. 37 所 示 。 注 意 , 这 里 设 定 Logstash 作为 服 
务 器 端 ,端口 号 要 和 代码 段 6. 36 中 的 Socket (InetAddress. getByName ("localhost")， 
5656) 匹 配 。 
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代码 段 6.37: Iogstash 配 置 文件 的 output 部 分 
imput { 
stdin{} 
} 
output { 


依次 启动 Logstash( 服 务 器 端 )、Java 应 用 程序 (客户 端 )。 在 控制 台 输 入 一 些 字 符 , 用 
它们 来 模拟 得 到 的 日 志 信 息 ,它们 会 经 由 Logstash 这 个 管道 以 TCP 方式 输送 并 显示 ,如 
图 6. 33 所 示 。 在 图 6. 33 上 部 的 控制 台 Logstash 端 输入 的 字符 hello 会 传递 到 客户 端 显 
示 , 见 图 6. 33 的 下 部 。 


"message” 
"@version" => “1"， 
"etimestamp”=> 2618-67-65T68:24:58.738Z 


} 


国 仅 格 文 本 发 送 到 当前 远 项 卡 

sshi//shiyanshi@ 192.168.1.11122 

E:\tools\j: \bin\java ... 

{"host":"507", "message":"hello”,"@version":"1","@timestamp":"2018-07-85T88:24:58.7387"} 


图 6.33 日 志 经 TCP 方式 输出 (Logstash 作为 服务 器 端 ) 


6.5.7 将 日 志 信 息 发 送 至 Email 


使 用 STMP 发 送 邮 件 , 将 收集 到 的 日 志 信息 通过 邮件 服务 器 发 送 至 收 信 人 邮箱 中 ,这 
样 可 构成 一 个 简单 的 邮件 报警 服务 。 代 码 段 6. 38 给 出 了 Logstash 配置 文件 关于 邮件 发 送 
的 部 分 参数 设 定 。 


代码 段 6.38: Logstash 配置 文件 格式 ,用 SmMe 方 式 发 送 邮件 
cutput { 


http { 
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codec=>… # 编 解码 器 ,可 选项 ,默认 为 Plain 

address=>… # 字 符 串 ,可 选项 ,默认 为 localhost, 连 接 邮 件 服务 器 的 地 址 
bodr>… # 字 符 串 ,可 选项 ,发 送 邮件 的 文本 内 容 , 默 认为 空 字符 串 
domain >… # 字 符 串 ,可 选项 ,邮件 服务 器 的 域名 ,默认 为 空 字符 串 
from>… # 字 符 串 ,可 选项 ,发 信人 的 邮箱 ,默认 为 空 字符 串 
htmlbody=>*… # 字 符 串 ,可 选项 ,发 送 邮件 的 haml, 默 认为 空 字符 串 
Password= >… # 字 符 串 ,可 选项 ,发 信人 的 密码 ,默认 为 空 字符 串 
Port=->… # 数 值 , 可 选项 ,邮件 服务 器 的 端口 号 ,默认 为 5 
subject=>… # 字 符 串 ,可 选项 ,发 送 邮件 的 主题 ,默认 为 空 字符 串 
to=>" # 字 符 串 , 必 选 项 , 收 信人 的 邮箱 


Eh SMTP 是 一 种 邮件 传输 协议 ,全 称 为 Simple Mail Transfer Protocol, 即 简单 
邮件 传输 协议 , 它 通过 指定 的 服务 器 地 址 和 身份 验证 将 Email 发 送 到 收 信人 的 邮箱 中 。 
使 用 邮件 服务 器 的 前 提 是 需要 先 开启 该 服务 。 例 如 ,本 书 使 用 的 是 腾讯 邮件 服务 器 , 需 
要 在 邮箱 的 设置 中 开启 该 服务 。 


在 代码 段 6. 39 中 ,首先 接收 从 命令 行 输入 的 内 容 , 经 filter 解析 message, 再 通过 
output 输出 到 命令 行 并 发 送 到 邮箱 中 。 需 要 注意 的 是 ,在 Email 的 配置 中 ,其 subject 和 
body 参数 都 采用 “% {变量 名 }” 的 格式 ,将 上 一 步 filter 解析 的 message 内 容 填充 到 该 字符 
串 中 。 


代码 段 6.39: Logstash 配 置 文件 格式 ,用 SIMP 方 式 发 送 邮 件 
input { 
stdin { } 
filter { 
json { 
Scurce= > "message" 
} 


to= > "technicale oqg.om' # 收 信人 的 邮箱 
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人 omr > "monitore qg.om' # 发 信人 的 邮箱 
Username= > "technicale qq.comy # 发 信人 的 用 户 名 
subject=> 'Alert— %{title}' # 邮 件 主题 
bod > "Content:\N\ng{fcontentjm # 邮 件 内 容 
domain= > 'smbp.qqd.camy # 邮 件 服 务 器 域名 
password= > "123456" # 发 信人 的 密码 
adiress= > "smtp.qg.om" # 邮 件 服务 器 地 址 (可 填写 域名 或 王 地 址 ) 
port=>25 # 邮 件 服务 器 端口 
} 
} 


如 图 6. 34 的 上 部 所 示 ,在 启动 Logstash 后 ,命令 行 输 入 {"title":"INFO", "content":; 
"hello email" } ,filter 解析 message, 然 后 输出 到 命令 行 中 并 发 送 邮 件 。 在 图 6. 34 的 下 部 中 
可 以 看 到 ,subject 参数 的 值 *Alert - %{title} ”已 经 被 替换 为 *Alert - INFO”,body 中 的 内 
容 也 被 替换 了 。 


Plugin is now waiting Tor input: 
[2018. 7 65T17:26:19, ol ] [iogstash.agent ] Pipelines runn: 
F title":"INFO", “content": "hello email"} 


"content" => "hello email", 
"@version" => "1", 
"message” => "{\"title\":\"INFO\", \“content\": \“hello email\"}", 
“host” => "507", 
"etimestamp”=> 人 07- 965T69:26:41.136zZ,， 
"title” => “INF 


Alert - INFO -一 

发 件 人 :和 hemeseeees Gqq.com > [5 
时 间 : 2018 年 7 月 5 日 (星期 四 ) 下 午 5:26 

收 件 人 ， wii qq.Com > 


Content: 
hello email 


图 6.34 命令 行 输入 的 发 送 内 容 和 邮件 发 送 结果 


66 扩展 知识 与 阅读 


redis 是 一 个 高 性 能 的 键 - 值 对 数据 库 , 它 在 很 大 程度 上 弥补 了 了 memcached 在 键 - 值 对 存 
储 上 的 不 足 ,在 部 分 场合 可 以 对 关系 数据 库 起 到 很 好 的 补充 作用 。 有 关 redis 的 背景 知识 及 
操作 可 参阅 文献 (李子 骅 ,2013) 和 ( 黄 健 宏 ,2014) 。 通 过 使 用 log4j, 可 以 控制 日 志 信息 输送 
的 目的 地 ,也 可 以 控制 每 一 条 日 志 的 输出 格式 .定义 每 一 条 日 志 信 息 的 级 别 等 。 在 得 到 日 志 
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流 以 后 ,可 以 进行 更 进一步 的 分 析 。 文 献 ( 王 继 民 ,2014) 给 出 互联 网 用 户 查询 日 志 挖掘 及 其 
应 用 研究 领域 的 主要 技术 方法 与 实证 研究 成 果 。 文 献 ( 李 志 义 ,2015) 采 用 了 众多 流行 的 数 
据 挖掘 算法 ,如 利用 K-Means 算法 进行 信息 聚 类 和 网 页 自动 抽取 ,利用 贝 叶 斯 分 类 器 实现 
信息 过 滤 与 分 类 ,将 智能 Web 算法 与 网 站 优化 有 机 地 结合 起 来 。 


67 ”本章 小 结 


Logstash 架构 是 专 为 收集 .分 析 和 存储 日 志 而 设计 的 。 它 的 组 件 架 构 支 持 通过 代理 对 
不 同 服务 器 的 日 志 流 进行 管理 ,并 最 终 传送 至 存储 系统 中 。 本 章 对 Logstash 的 主要 功 
能 一 一 日 志 输 入 输出 \. 过滤 处 理 等 进行 了 说 明 , 并 给 出 了 测试 与 应 用 实例 。 由 于 在 
Logstash 中 所 有 的 工具 都 是 可 安装 、 可 配置 以 及 可 管理 的 ,因此 ,也 便于 和 其 他 应 用 对 接 。 
将 Elasticsearch、Logstash、Kibana、Beats 等 结合 起 来 使 用 ,能 有 效应 对 大 数据 搜索 与 挖掘 
方面 的 应 用 需求 ,具有 广阔 的 应 用 与 开发 前 景 。 


第 "7 章 ， Chapter 7 


基于 Kibana 的 数据 分 析 及 可 视 化 


Kibana is an open source analytics and visualization platform designed to 
work with Elasticsearch. You use kibana to search, view, and interact with 
data stored in Elasticsearch indices. You can easily perform advanced data 
analysis and visualize your data in a variety of charts，tables，and maps. 
Kibana makes it easy to understand large volumes of data. lts simple. browser- 
based interface enables you to quickly create and share dynamic dashboards 
that display changes to Elasticsearch queries in real time. Setting up Kibana is 
a snap. You can install Kibana and start exploring your Elasticsearch indices in 
minutes—no code, no additional infrastructure required. 

https://www. elastic. co/ guide/en/kibana/ current/introduction. html 


在 对 大 数据 进行 分 布 式 索 引 、 检 索 并 对 用 户 日 志 进 行 存储 和 处 理 后 ,需要 使 用 信息 
分 析 与 可 视 化 工具 对 挖 所 结果 进行 展示 。Kibana 是 Elastic Stack 家 族 中 使 用 
Elasticsearch、Logstash 分 析 结 果 的 基于 Web 的 可 视 化 工具 ,可 以 帮助 用 户 汇 总 、 分 析 和 搜 
索 重 要 数据 日 志 并 提供 友好 的 图 形 界面 。 例 如 ,通过 histogram 面板 ,配合 不 同 条 件 的 多 
个 查询 ,可 以 对 一 个 事件 给 出 从 多 个 不 同 维度 看 的 组 合 统计 结果 ,并 可 以 给 出 不 同 的 时 
间 序 列 走势 ;通过 Kibana 的 交互 式 界面 ,可 以 很 快 定位 到 异常 事件 或 将 其 查询 范围 缩小 。 
Kibana 是 用 HTML 和 JavaScript 构建 的 ,所 以 它 不 需要 任何 后 台 组 件 。 对 于 Elasticsearch 
用 户 而 言 ,Kibana 极 易 上 手 。Kibana 支持 强大 的 Lucene query String 查询 语法 ,能 利用 
Elasticsearch 的 过 滤 ,统计 功能 。 本 章 介 绍 Kibana 6. 2 在 Logstash 日 志 数 据 可 视 化 方面 
的 实际 应 用 。 
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71 Kbana 概述 


Kibana 是 一 款 为 协同 Elasticsearch 工作 而 设计 的 开源 数据 分 析 和 可 视 化 展示 平台 ,用 
户 可 以 通过 Kibana 与 Elasticsearch 索引 文件 中 的 数据 进行 交互 ,并 执行 数据 检索 .数据 浏 
览 等 任务 。 在 Kibana 中 可 以 轻松 地 完成 高 级 数据 分 析 , 以 及 生成 统计 图 .表格 .地 图 等 多 种 
形式 的 可 视 化 展示 。Kibana 能 够 帮助 用 户 理解 大 数据 。 它 拥有 便捷 易 用 、 基 于 浏览 器 的 交 
互 界面 ,能 够 通过 快速 创建 和 分 享 动态 仪表 板 ,方便 地 将 Elasticsearch 中 执行 查询 的 情况 
展示 给 用 户 。 

安装 Kibana 的 过 程 十 分 简单 ,在 安装 Kibana 之 后 ,无须 编写 任何 代码 ,也 不 需要 任何 
底层 支持 , 即 可 对 Elasticsearch 分 片 中 的 数据 进行 操作 和 管理 。 

Kibana 6. 2 包括 Discover、Visualize、Dashboard、Timelion?、Dev Tools 和 Management 6 个 
组 件 。 


72 受 装 Kbana 


Elastic 官网 的 Kibana 产品 页 面 (https://www. elastic. co/downloads/kibana) 提 供 了 
Kibana 针对 不 同 平台 的 安装 包 。 首 先 , 根 据 当 前 系统 平台 的 实际 需要 ,从 Elastic 官网 下 载 
新 版 的 Kibana (本章 以 Kibana 6. 2 为 例 ), 然 后 将 其 解压 。 在 config 文件 夹 中 的 kibana. 
yml 配置 文件 中 可 以 配置 和 Kibana 连接 的 Elasticsearch 信息 (默认 连接 本 机 的 9200 端口 ， 
而 Kibana 运行 在 5601 端口 ;如果 不 修改 配置 文件 , 则 使 用 默认 配置 )。 进 入 Kibana 主 目录 
中 的 bin 文件 夹 ,启动 Kibana, 在 浏览 器 地 址 栏 中 输入 http://localhost: 5601/ 以 访问 
Kibana 的 前 端 界 面 。 图 7. 1 为 Kibana 的 初始 前 端 界 面 。 


a 
Kibana 需要 以 Elasticsearch 中 存储 的 数据 作为 数据 源 ,原则 上 应 事先 确保 以 
下 3 点 : Elasticsearch 正在 运行 ;在 Elasticsearch 中 已 经 创建 了 索引 文件 ;在 索引 文件 
中 已 经 存 有 数据 。 如 果 Kibana 启动 时 并 没有 检测 到 任何 可 用 的 Elasticsearch 连接 , 那 
么 即使 能 够 启动 Kibana 并 访问 前 端 页 面 ,其 状态 也 将 变 为 Red, 如 图 7.2 所 示 , 而 数据 
检索 和 分 析 等 进一步 的 处 理工 作 通 常 也 无 法 执行 。 


@ 时 间 线 的 英文 应 为 timeline。 为 便于 读者 阅读 ,本 书 仍 使 用 Kibana 中 的 写法 一 一 timelion。 
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Add Datato Kibana 


一 
= 
aa 

a 
APM 


APM automatically collects In- 
depth performance metrics and 
Management errors from Iinside your 
applications. 


Add APM 


Visualize and Explore Data 


Dashboard 
Display and share a 


Use these solutions to qulckly turn your data into pre-bullt dashbcards and monitoring systems. 


人 Discover mm Console 


Logging Metrics 
Ingest logs from popular data Collect metrics fromt 
sources and easly visuallze mn operating system and ser| 
preconfigured dashboards. running on your serve 


Add log da Add mei 


Manage and Adminis| 


Interactively explore your Sklp cURL and use| 


图 7.1 Kibana 的 初始 前 端 界面 


Status: Red 


Heap Total 


112.40 MB 


Heap Used 


77.04 MB 


Response Time Avg 


0.00 ms 


Response Time Max 


0.00 ms 


Status Breakdown 


plugin:kibana@6.2.4 
plugin:elasticsearch@6.2.4 
plugin:timellon@6.2.4 
plugin:console@6.2.4 
Plugin:metrics@6.2.4 


Status 
v Ready 
A Unable to connect to Elasticsearch at http://localhost:9200. 
v Ready 
v Ready 
v Ready 


图 7.2 当 至 少 缺 失 一 个 主 节点 时 ,Kibana 状态 将 变 为 Red 


73 使 用 Management 组 件 管 理 配置 


Management 组 件 可 以 用 来 管理 Kibana 的 运行 时 配置 ,包括 对 索引 的 引用 和 进 
置 ,调整 Kibana 自身 运行 状态 的 高 级 设置 ,以 及 配置 Kibana 中 存储 的 检索 .可视化 内 容 、 仪 表 


步 设 
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板 等 对 象 。 在 Kibana 前 端 界 面 左 侧 单 击 Management 导航 按钮 即 可 跳 转 到 Management 界 
面 ,如 图 7. 3 所 示 。 本 节 对 添加 索引 模式 、 高 级 设置 .已 保存 对 象 管理 等 功能 进行 介绍 。 


Management / Kibana 


EQ© DY 


Index Patterns Saved Objects Advanced Settings 


二 whale 全 whale 
ing O Time Filter Field name: @timestamp 
@ i This page lists every field In the whale index and the fleld's assodated core type as recorde: 
eS ne) the core type of each field, changing fleld types must be done using Flasticsearch's Mapping| 
welbo 
7 fieds (12) scripted fields (0) source filers (0) 
次 w Q Filter 
names types formats searchable @: 
@timestamp date vv 
Jd string v 
Index string ~ 
score number 


图 7.3 Management 界面 


7.3.1 创建 索引 模式 


Kibana 的 数据 分 析 和 展示 能 力 要 通过 来 自 Elasticsearch 的 数据 源 才能 得 以 发 挥 。 首 
先 要 向 Kibana 中 引入 索引 模式 。 在 Index Patterns 界面 中 输入 要 添加 的 索引 名 称 , 下 方 会 
列 出 目前 Elasticsearch 已 有 的 索引 。 在 用 户 输入 某 个 索引 名 称 的 过 程 中 ,程序 会 根据 当前 
已 输入 的 字符 串 自 动 筛选 可 用 的 索引 名 称 。Management 允许 用 户 使 用 通配符 来 指定 索引 
名 称 , 即 在 输入 的 内 容 中 可 以 加 入 通配符 * (例如 ,logstash-* 表示 名 称 以 字符 串 logstash- 
开头 的 全 部 索引 )。 当 用 户 准 确 输 入 了 索引 的 名 称 之 后 ,界面 中 会 出 现 匹配 成 功 的 提示 ,如 
图 7.4 所 示 。 此 时 单 击 Next step 按钮 即 可 进行 第 二 步 操作 。 

第 二 步 是 选择 时 间 字 段 。 当 索引 中 存在 时 间 类 型 的 数据 时 ,Kibana 可 以 执行 与 时 间 相 
关 的 查询 ,统计 和 聚合 。 界 面 中 提供 了 一 个 选择 时 间 字 有 段 的 下 拉 列 表 , 其 中 列 出 了 当前 指定 
的 索引 中 的 全 部 时 间 字 段 。 用 户 可 以 选择 一 个 起 决定 作用 的 时 间 字 段 , 也 可 以 选择 最 后 的 
一 项 , 即 不 使 用 时 间 过 滤器 (此 时 用 户 不 需 指 定时 间 字 段 )。 当 用 户 在 下 拉 列 表 中 选 定 一 项 
之 后 , 右 侧 的 Create index pattern 按钮 即 变 为 可 用 状态 ,如 图 7. 5 所 示 , 单 击 该 按钮 即 可 完 
成 索引 模式 的 创建 。 

创建 索引 模式 后 ,界面 中 将 出 现 该 索引 的 基本 信息 。 在 索引 名 称 右 侧 有 3 个 操作 按钮 ， 
它们 的 作用 如 下 : 单 击 左 侧 的 去 按钮 ,可 将 该 索引 设置 为 默认 ; 单 击 中 间 的 3 按钮 ,可 刷新 
下 面 的 字段 列表 ; 单 击 右 侧 的 La ] 按 钮 ,可 将 该 索引 从 界面 中 移 除 。 
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Create index pattern 
Kibana uses Index patterns to retrieve data from 
Elasticsearch indices for things like visualizations. Indude system indices 


Step 1 of 2: Define index pattern 


Index pattern 
whale 


You can use a * as a wildcard in your index pattern. 
You can't use empty spaces or the characters \, /, ?, ", <, >, | 


v Success! Your Index pattern matches 1 index. 


whale 


Rows per page: 10 ~ 


图 7.4 创建 索引 模式 第 一 步 : 指定 索引 


Step 2 of 2: Configure settings 


Youve defined whale as your Index pattern. Now you can speclfy some settings before 


We create It. 
Time Filter field name Refresh 
@timestamp ~ 


The Time Filter will use this fleld to filter your data by time. 


You can choose not to have a time field, but you will not be able to 
narrow down your data by a time range. 


> Show advanced options 


图 7.5 创建 索引 模式 第 二 步 : 选择 时 间 字 段 


创建 至 少 一 个 索引 模式 之 后 ,可 以 看 到 界面 左 侧 为 索引 模式 的 列表 , 右 侧 为 选中 的 索引 


模式 的 基本 信息 。 单 击 界面 左上 方 的 ET 拉 钮 .可 以 创建 更 多 的 索引 模式 , 具 
体操 作 方法 同上 ,不 再 歼 述 。 


7.3.2 高 级 设置 


Advanced Settings( 高 级 设置 ) 页 面 提供 了 直接 控制 Kibana 运行 状态 的 设置 项 ,通过 直 
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接 编辑 这 些 设置 项 ,可 以 实现 更 改 日 期 格式 、 指 定 默认 索引 模式 .设置 小 数 数值 精度 等 功能 。 
在 Kibana 前 端 界 面 中 单 击 Advanced Settings 导航 按钮 即 可 跳 转 至 高 级 设置 界面 。 下 面 对 
高 级 设置 中 的 设置 项 进行 简要 介绍 ,详细 内 容 可 参考 相关 文献 和 互联 网 上 的 资源 。 

。 query:queryString: options: 关于 Lucene 中 queryString 分 析 器 的 设置 项 ,默认 为 
{ "analyze_wildcard" : true }。 
sort:options: 关于 Elasticsearch 中 排序 参数 的 设置 项 ,默认 为 { "unmapped_type" : 
"boolean” } 。 


dateFormat: 用 于 显示 统一 格式 的 日 期 时 间 , 默 认为 “MM DD YYYY, HH:mm: 


ss, SSS”。 
。 dateFormat:tz: Kibana 中 使 用 的 时 区 ,默认 为 browser( 即 沿用 浏览 器 的 时 区 
设置 ) 。 


dateFormat:scaled: 设置 时 间 惟 数据 格式 ,格式 化 的 时 间 信 息 必须 在 ISO 8601 标准 
规定 的 范围 内 ,默认 为 [ ["", "HH:mm:ss. SSS"], ["PT1S",，"HH:mm:ss"]， 
["PTIM", "HH:mm"], ["PT1H", "YYYY-MM-DD HH:mm"], ["P1DT", 
"YYYY-MMDD”] CPIYT", “YYYY"] ]。 

dateFormat:dow: 规定 一 周 的 第 一 天 ,默认 为 Sunday( 星 期 日 ) 。 

defaultIndex: 指定 默认 的 索引 ,默认 为 null, 该 项 可 删除 。 

defaultColumns: 指定 在 Discover 页 面 中 默认 显示 索引 中 的 哪些 列 ( 即 字段 ), 默 认 
为 _source, 即 全 部 自 定义 字段 。 

metaFields: 以 数组 形式 指定 索引 中 _source 字段 以 外 的 其 他 字段 , 即 Elasticsearch 
自动 生成 的 元 字段 。Kibana 在 显示 文档 数据 时 ,将 这 些 字段 与 _source 字段 合并 进 
行 显示 ,默认 为 source，_id，_type，_index，_score。 

discover:sampleSize: 指定 在 Discover 界面 中 显示 数据 的 行 数 ,默认 为 500。 
doc_table:highlight: 指定 是 否 允 许 在 Discover 界面 及 已 保存 的 检索 面板 中 高 亮 显 
示 搜 索 结果 ,默认 为 true。 

courier: maxSegmentCount: Kibana 发 送 请 求 到 Elasticsearch 时 会 将 请 求 分 段 发 
送 , 以 减 小 每 段 请 求 信息 的 长 度 。 该 项 指定 每 个 分 段 的 长 度 , 默 认为 30。 
fields:popularLimit: 指定 显示 最 热 字 段 的 最 大 数量 ,默认 为 10。 
histogram:barTarget: 指定 当 date histogram 使 用 了 自动 时 间 间 隔 时 ,Kibana 尝试 
生成 条 形 统计 图 中 条 带 的 数量 ,默认 为 50。 

histogram:maxBars: 指定 上 一 项 的 最 大 值 ,默认 为 100 。 
visualization:tileMap:maxPrecision: 指定 在 tile map 中 显示 的 最 大 geoHash 精度 。 
7 表示 高 ,10 表示 很 高 ,12 为 最 大 值 , 默 认为 7。 
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visualization:tileMap:WMSdefaults: 关于 支持 tile map 的 wms map server 的 默认 
属性 ,默认 为 { "enabled" : false,"url": "https://basemap.nationalmap.gov/arcgis/ 


services/ USGSTopo/ MapServer/ WMSServer", "options": { "version": "1.3.0"， 
"layers": "0"," format": "image/png"," transparent": true," attribution": "Maps 
provided by USGS", "styles": "" } }。 


visualization:colorMapping: 将 可 视 化 界面 中 的 某 个 值 映 射 到 指定 的 颜色 ,默认 为 
{"Count":"#6eadcl"}., 

visualization:loadingDelay: 指定 在 查询 时 将 可 视 化 界面 变 暗 之 前 等 待 的 时 间 ,默认 
为 2s。 

csv:separator: 指定 导出 数据 的 分 隔 符 ,默认 为 逗号 。 

csv:quoteValues: 指定 是 否 引用 导出 的 信息 ,默认 为 true。 

history:limit: 在 具有 历史 数据 的 字段 中 ,指定 显示 历史 数据 的 数量 ,默认 为 10。 
shortDots:enable: 指定 可 视 化 界面 中 是 否 将 较 长 的 字段 名 以 简短 的 形式 显示 ,例如 
将 foo. bar. baz 简化 为 f. b. baz, 默 认为 false。 

truncate:maxHeight: 指定 表格 中 单元 格 的 最 大 高 度 , 设 置 为 0 以 禁用 截断 功能 , 默 
认为 115。 

indexPattern:fieldMapping:lookBack: 指定 最 近 匹 配 到 索引 模式 的 数量 ,来 查询 包 
含 时 间 改 的 索引 模式 中 字段 的 mapping ,默认 为 5。 

format:defaultTypeMap: 指定 默认 的 字段 类 型 映射 ,如 果 某 个 字段 未 匹配 到 指定 的 
映射 ,那么 该 字段 使 用 默认 映射 ,默认 为 { "ip": { "id": "ip","params": {} }， 
"date": { "id": "date", "params": {} },"number": { "id": "number","params": {} }, 


"boolean": { "id": "boolean","params": {) },"_source”: { "id": "_source", 
"params": {} },"_default_": { "id": "string","params": {} } }。 
format:number: defaultPattern: 指定 number( 数 字 ) 格 式 默认 的 数值 型 格式 ,默认 
为 0,0.[000]。 

format:bytes: defaultPattern: 指定 bytes( 字 节 ) 格 式 默 认 的 数值 型 格式 ,默认 为 
0,0. [000]b。 

format:percent:defaultPattern: 指定 percent( 百 分 数 ) 格 式 默认 的 数值 型 格式 ,默认 
为 0,0.[000]%。 

format:currency:defaultPattern: 指定 currency (货币) 格式 默认 的 数值 型 格式 , 默 
认为 ($0,0.[00])。 

savedObjects:perPage: 指定 已 保存 的 object 列表 中 每 页 的 object 数量 ,默认 为 5。 
timepicker:timeDefaults: Kibana 中 默认 的 时 间 过 滤器 配置 ,默认 为 { "from": 
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"now-l5m", "to": "now","mode": "quick”} 。 


timepicker:refreshIntervalDefaults: 时 间 过 滤器 默认 的 刷新 间隔 ,默认 为 { "display": 
"Off", "pause": false, "value": 0 }。 

dashboard: defaultDarkTheme: 指定 新 创建 的 面板 是 否 使 用 暗色 调 主题 ,默认 为 
false。 

filters:pinnedByDefault: 指定 过 滤器 是 否 应 被 固定 为 具有 全 局 状态 ,默认 为 false。 
notifications:banner: 以 横幅 形式 面向 全 体 用 户 定制 临时 公告 ,支持 Markdown 
格式 。 

notifications: lifetime: banner: 指定 临时 公告 的 显示 时 长 ,单位 为 毫秒 ,设置 为 
Infinity( 即 无 穷 大 ) 将 禁用 公告 横幅 ,默认 为 3 000 000。 

notifications: lifetime: error: 指定 错误 报告 的 显示 时 长 ,单位 为 毫秒 ,设置 为 
Infinity 将 禁用 公告 横幅 ,默认 为 300 000 。 

notifications :lifetime:warning: 指定 警告 的 显示 时 长 ,单位 为 毫秒 ,设置 为 Infinity 
将 禁用 公告 横幅 ,默认 为 10 000 。 

notifications :lifetime:info: 指定 通知 信息 的 显示 时 长 ,单位 为 毫秒 ,设置 为 Infinity 
将 禁用 公告 横幅 ,默认 为 5000。 

timelion:showTutorial: 指定 在 用 户 进 入 timelion 时 是 否 显示 教程 ,默认 为 false。 
timelion :es. timefield: 指定 在 使 用 . es() 方 法 时 默认 包含 时 间 戳 的 字段 名 ,默认 为 
Q@timestamp 。 

timelion :es. default_index: 指定 在 使 用 . es() 方 法 时 默认 在 Elasticsearch 中 搜索 的 
索引 名 称 , 默 认为 _all。 

timelion :target_buckets: 指定 在 使 用 自动 间隔 大 小 时 获取 bucket 的 数量 ,默认 
为 200。 

timelion: max_ buckets: 指定 单个 datasource 返回 bucket 的 最 大 数量 , 默认 
为 2000。 

timelion :default_columns: 指定 timelion 表 中 默认 的 列 数 ,默认 为 2。 

timelion :default_rows: 指定 timelion 表 中 默认 的 行 数 , 默 认为 2。 

timelion: graphite. url: 指定 graphite 监控 系统 主机 的 URL 地 址 ,默认 为 https:// 
www. hostedgraphite. com/UID/VACCESS_KEYV/graphite。 

timelion:quandl. key: 指定 quandl 金融 和 经 济 数据 网 站 www. quandl. com 的 API 
key, 默 认为 someKeyHere。 

state: storeJnSessionStorage: 为 防止 URL 过 长 导致 某 些 浏 览 器 无 法 正常 处 理 , 可 
以 将 URL 的 一 部 分 存储 在 服务 器 session 中 ,该 设置 项 用 于 指定 是 否 开启 这 一 功 
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能 ,默认 为 false。 
。 discover:aggs:terms:size: 指定 Discover 中 ,在 聚合 时 词 项 的 最 大 长 度 , 默 认为 20。 


2 
对 以 上 设置 项 的 修改 ,将 会 对 Kibana 的 性 能 造成 明显 的 影响 ,有 可 能 会 造成 


难以 排查 的 问题 。 当 某 个 设置 项 不 填写 任何 内 容 保 存 时 ,其 值 会 恢复 默认 设置 。 如 果 
其 他 设置 项 需要 这 里 的 设置 ,那么 恢复 默认 将 造成 配置 的 不 兼容 。 另 外 ,对 于 某 个 设置 
项 的 删除 操作 是 不 可 逆 的 ,操作 将 永久 生效 。 


7.3.3 管理 已 保存 的 检索 .可视化 和 仪表 板 


在 Management 组 件 中 , 单 击 上 方 的 Saved Objects 链接 ,可 以 跳 转 至 已 保存 对 象 的 管 
理 界面 ,如 图 7. 6 所 示 。 管 理 内 容 分 为 仪表 板 、 检 索 和 可 视 化 内 容 ( 分 别 对 应 页 面 中 的 
Dashboards、Searches、Visualizations)。 在 该 界面 中 每 一 种 内 容 可 以 显示 100 条 信息 ,其 余 
部 分 可 以 在 界面 上 方 的 输入 框 中 通过 输入 部 分 对 象 名 称 过 滤 得 到 。 
Management / Kibana 


Index Patterns Saved Objects Advanced Settings 


Edit Saved Objects 去 ExportEverything ”之 Import 
From here you can delete saved objects, such as saved searches. You can also edlt the 
raw data of saved objects. Typlcally objects are only modifled via thelr assoclated 
application, which ls probably what you should use Instead of thts screen, Each tab Is 
limlted to 100 results. You can use the filter to find objects not In the default list. 


Dashboards (0) Searches (1) Visualizations (0) 
Q search 多 Delete | 二 Export 
Title 
whale01 时 


图 7.6 Saved Objects 管理 界面 


在 每 种 对 象 的 列表 中 , 左 侧 为 保存 的 对 象 名 称 , 鼠 标 指针 放 在 该 行 时 其 右 侧 会 出 现 查 看 
对 象 内 容 的 @ 按钮 。 单 击 对 象 名 称 可 以 跳 转 至 该 对 象 的 编辑 界面 , 单 击 右 侧 的 电 按钮 可 以 
跳 转 至 该 对 象 的 内 容 查 看 页 面 。 单 击 列表 左上 方 的 勾 选 项 ,可 以 将 保存 的 对 象 全 部 选中 ; 单 
击 列表 顶部 的 Le oeee | 按钮 ,可 以 将 选中 的 对 象 删除 ; 单 击 oot 按钮 ,可 以 将 选中 的 对 象 导 
出 并 以 JSON 格式 的 文件 保存 到 本 地 。 


第 7 章 基于 Kibana 的 数据 分 析 及 可 视 化 ‘219) 


Management 组 件 在 屏幕 的 最 上 方 还 提供 了 输出 所 有 对 象 的 主 Speteeyhm 按钮 和 导入 
外 部 保存 对 象 的 moor 按钮 。 该 管理 界面 功能 十 分 简单 易 用 ,本 节 不 再 歼 述 。 


74 使 用 Discover 组 件 机 行 查询 


在 Kibana 前 端 界 面 左 侧 单 击 Discover 导航 按钮 即 可 跳 转 到 Discover 界面 ,如 图 7.7 
所 示 。 本 节 将 对 时 间 过 滤器 的 设置 .数据 查询 .字段 过 滤 .查看 文档 数据 ,查看 统计 信息 等 功 
能 进行 介绍 。Discover 提供 了 交互 式 的 查询 界面 ,可 以 在 已 创建 的 索引 模式 中 查询 索引 文 
件 中 的 全 部 文档 信息 。 在 界面 中 还 提供 了 执行 查询 语句 、 执 行 查询 结果 过 滤 ,查看 文档 全 部 
数据 .显示 相关 统计 数据 等 功能 。 当 索引 模式 中 带 有 时 间 戳 字段 时 ,查询 界面 上 方 会 显示 柱 
状 统计 图 。 


454hits New Save Open Shae CAutorefresh < QOLastg0days 》 
Adda fiter+ 
thome -9 March 26th 2018, 00.35:27.714 -June 24th 2018, 00:35:27.714— Auto 


Selected Flelds 
? source 


Avallable © 


Flelds 日 
td 
~ | PP 


t index 4 
publishTime per day 

score @ 

t type Time ~ _source 


t content ， June 3rd 2618，94:14:33.988 editorNane: wfenbuqilan |PubUishTines June 3rd 201 
让 B, 84:14:33.| replies: 9 titles 作为 一 名 Java 程 序 员 一 
定 要 不 断 关注 学 习 最 前 沿 的 技术 便于 http://bbs .it-home.org/ 
thread- 195352-1-1.htnl ICONitBNES 无论 做 什么 事情 都 不 可 能 做 


图 7.7 Discover 界面 


© publishTi. 


7.4.1 设置 时 间 选 择 器 


对 于 带 有 时 间 戳 的 文档 而 言 , 时 间 选 择 器 能 够 在 某 个 时 间 段 内 统计 文档 中 的 数据 。 进 
入 Discover 中 的 查询 页 面 时 ,默认 加 载 最 近 15min 的 统计 数据 。 如 要 更 改 时 间 段 ,可 以 单 
击 界面 右上 角 的 时 间 选 择 器 按钮 日 ,界面 上 方 会 弹出 时 间 选 择 界面 。 选 择 时 间 段 的 方式 主 
要 有 3 种 : 在 给 定 的 常用 时 间 段 中 快速 选择 ,设置 相对 于 当前 的 起 始 时 间 , 从 起 始 和 终止 日 
历 中 设置 绝对 时 间 间 隔 。 

单 击 左 侧 的 Quick 按钮 可 以 转 到 快速 选择 界面 ,该 界面 中 提供 了 22 种 常用 时 间 段 , 包 
括 截 至 目前 的 各 种 时 间 跨 度 、 类 似 上 周 或 上 个 月 的 特定 时 间 跨 度 等 。 该 界面 中 的 选项 可 以 
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快速 度 划 定 时 间 段 并 完成 统计 。 在 选择 时 间 跨 度 之 后 ,还 可 以 在 Discover 查询 界面 中 的 柱 
状 图 中 通过 鼠标 左 键 拖 忠 的 方式 来 圈 出 更 精确 的 时 间 范 围 。 如 图 7. 8 所 示 , 图 中 矩形 的 阴 
影 区 域 即 为 鼠标 拖 出 的 时 间 范 围 。 此 外 ,将 鼠标 指针 放 在 柱状 图 中 任意 一 个 小 格 上 , 均 会 显 
示 出 该 位 置 详细 的 时 间 和 统计 信息 。 如 果 单 击 该 位 
置 ,统计 图 会 展开 为 这 一 单位 时 间 跨 度 内 更 详细 的 数 
据 的 统计 图 。 

单 击 左 侧 的 Relative 按钮 ,可 以 转 到 相对 时 间 跨 
度 的 设置 界面 。 在 该 界面 中 可 以 设置 历史 上 的 一 个 时 
间 点 ,从 而 划 定 距 今 的 时 间 跨 度 。 界 面 中 给 出 了 小 到 [publshrimeperday 
分 、 大 到 年 的 7 种 不 同 的 时 间 单 位 ,如 有 特殊 需要 ,还 
可 以 勾 选 四 舍 五 人 到 已 选择 时 间 单 位 的 选项 。 

单 击 左 侧 的 Absolute 按钮 ,可 以 转 到 绝对 时 间 跨 
度 的 设置 界面 。 该 界面 提供 了 两 个 日 历 型 时 间 拾 取 
器 ,用 来 为 两 个 时 间 输 入 框 选择 准确 的 起 止 时 间 , 从 而 组 成 一 个 特定 的 时 间 跨 度 。 另 外 ,每 
个 时 间 输 入 框 的 下 方 均 给 出 了 要 求 的 SimpleDateFormat 时 间 格 式 。 在 终止 时 间 输 入 框 上 
方 还 提供 了 设置 当前 时 间 的 Set To Now 按钮 , 单 击 该 按钮 可 以 将 终止 时 间 设 置 为 当前 
时 间 。 


图 7.8 在 柱状 图 上 直接 拖 忠 来 划 定 
精确 的 时 间 范 围 


‘ 
单 击 浏览 器 的 后 退 按钮 ,可 以 撤销 Kibana 中 的 上 一 步 操作 。 


7.4.2 在 索引 模式 中 执行 搜索 


Discover 界面 上 方 为 用 户 提供 了 一 个 搜索 输入 框 ,其 右 侧 带 有 一 个 执行 搜索 的 园 按 钮 ， 
用 来 在 当前 显示 的 索引 文件 中 执行 各 类 搜索 任务 。 搜 索 框 中 填 和 人 的 表达 式 应 符合 
Elasticsearch 中 query string 查询 的 格式 。 表 7. 1 给 出 了 该 格式 查询 表达 式 的 一 些 实际 


例子 。 
表 7.1 query string 查询 表达 式 实例 
输入 表达 式 表达 式 含义 
os:Linux 检索 字段 os 中 带 有 关键 词 Linux 的 文档 内 容 
os:"Linux" 检索 字段 os 中 带 有 精确 词 项 Linux 的 文档 内 容 
os:(Linux OR Windows 10) 检索 字段 os 中 带 有 关键 词 Linux 或 关键 词 Windows 10 的 文档 内 容 
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续 表 
输入 表达 式 表达 式 含义 
通配符 ?代表 一 个 任意 字符 , * 代表 零 到 任意 多 个 任意 字符 。 该 表达 
Win?ows* 式 检索 以 Win 开头 ,中 间 带 有 一 个 任意 字符 ,后 面 接 ows 和 任意 后 
续 内 容 的 文档 内 容 
log_size:[300 TO 500] 检索 字段 log_size 中 文档 长 度 为 300 一 500 个 字符 的 文档 内 容 
log_size:[400 TO *] 检索 字段 log_size 中 文档 长 度 在 400 以 上 的 文档 内 容 
log_ size: [300 TO 600] AND | 检索 字段 log_size 中 文档 长 度 为 400 一 600 个 字符 并 且 字 段 os 中 带 
os: "Linux" 有 精确 词 项 Linux 的 文档 内 容 


Kibana 提供 了 保存 查询 结果 的 功能 。 在 查询 出 结果 之 后 , 单 击 界面 上 方 的 Save 按钮 ， 
为 当前 要 保存 的 查询 起 一 个 名 字 , 即 可 保存 该 结果 。 如 果 要 将 已 保存 的 查询 打开 ,也 可 以 单 
击 界面 上 方 的 Open 按钮 ,将 会 列 出 之 前 保存 的 所 有 查询 , 单 击 查询 的 名 称 即 可 显示 出 查询 
结果 。 要 执行 一 个 新 的 查询 ,可 以 单 击 界面 上 方 的 New 按钮 。 

随 着 越 来 越 多 的 文档 添加 到 当前 的 索引 模式 中 ,Discover 界面 中 的 查询 结果 可 能 需要 
更 新 。 如 果 用 户 需要 实时 更 新 查询 结果 ,可 以 单 击 界面 右上 角 的 时 间 选 择 器 按钮 @@ ,界面 
上 方 展开 时 间 设 置 面板 后 ,在 时 间 选 择 器 按钮 左 侧 会 出 现 一 个 自动 刷新 按钮 CAutorefesh 。 
单 击 这 一 按钮 ,时间 设置 面板 中 会 给 出 从 5s 到 1d 的 12 种 刷新 闻 隔 时 间 长 度 以 及 一 个 Off 


(关闭 ) 按 钮 。 单 击 其 中 一 个 时 间 长 度 后 ,将 以 此 处 设 定 的 时 whale 
间 间 隔 定时 刷新 ,同时 右上 方 的 自动 刷新 按钮 变 为 暂停 按钮 。 Selected Flelds 
如 果 要 停止 刷新 ,可 以 单 击 暂 停 按钮 ,或 者 直接 将 自动 刷新 设 :> i 
vallable Flelds 
置 为 关闭 状态 。 ee 
7.4.3 字段 过 滤 站 二 
t index 
加 载 过 索引 模式 后 ,Discover 界面 左 侧 提供 了 当前 索引 文 0 Score 
件 中 的 字段 列表 ,由 Selected Fields (已 选 字段 ) 和 Available pe 
Fields( 可 用 字段 ) 两 部 分 组 成 ,并 且 可 用 字段 中 会 将 经 常 被 选 t custom_lp 
中 的 字段 指定 为 Popular( 常 用 字段 ) ,如 图 7.9 所 示 。 在 任意 t http method 
一 个 字段 名 上 单 击 ,其 下 方 将 会 展开 该 字段 统计 数量 最 高 的 # log size 
前 5 种 内 容 , 如 图 7.10 所 示 。 tos 
在 每 一 行 统 计数 据 右 侧 均 有 两 个 过 滤器 按钮 @ 和 QQ。 单 了 
击 和 按钮 ,可 以 将 已 选择 的 字段 和 内 容 作为 精确 的 检索 条 件 cy 
执行 检索 ,该 条 件 也 将 以 过 滤器 标签 的 形式 显示 在 搜索 输入 图 7.9 当前 索引 文件 中 


框 下 方 ; 单 击 QQ 按 钮 , 则 会 将 该 数据 从 总 体 数据 中 排除 。 将 鼠 的 字段 列表 
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标 放 置 在 标签 上 ,标签 将 显示 出 5 种 操作 按钮 ,分 别 为 启动 /禁用 按钮 国 、 固 定 按钮 国 、 检 
索 / 排 除 转换 按钮 国 、 移 除 按钮 国 和 编辑 按钮 国 , 如 图 7. 11 所 示 。 


# log size 

Top 5 values in 500/ 500 

records 

375 aQa 

_EEB 

143 Qea 

_EEB 

213 Qe 

ED 

Cr CE 
图 7.10 字段 内 容 的 统计 数据 图 7.11 当前 索引 文件 中 的 字段 


单 击 国 按 钮 ,可 以 在 不 删除 该 过 滤器 标签 的 情况 下 禁用 该 过 滤器 功能 ,禁用 时 该 标签 
将 显示 为 斜纹 背景 ,再 次 单 击 即 可 重新 启用 。 单 击 攻 按钮 .可 以 使 该 标签 在 界面 发 生 跳 转 
时 仍 与 检索 保持 联系 。 例 如 , 当 转 到 可 视 化 界面 时 ,被 固定 的 标签 将 继续 在 新 的 界面 中 起 作 
用 ,但 是 检索 内 容 不 包含 过 滤器 标签 指定 字段 的 情况 除外 。 单 击 国 按 钮 ,可 以 实现 上 面 所 
述 的 添加 条 件 到 检索 当中 或 排除 性 检索 的 转换 功能 。 单 击 国 按钮 ,可 以 将 当前 过 滤器 标签 
移 除 。 单 击 国 按钮 ,可 以 对 当前 过 滤器 的 执行 代码 进行 编辑 ,以 及 为 该 标签 定义 别名 ,别名 
将 替换 图 7. 11 左 侧 标签 中 的 文字 。 

如 果 要 在 界面 中 部 的 文档 内 容 列表 中 添加 过 滤器 ,可 以 单 击 任意 一 条 文档 数据 左 侧 的 
三 角形 按钮 ， ,可 将 当前 文档 内 容 展 开 , 随 后 即 可 如 上 文 所 述 使 用 过 滤器 按钮 包 和 久 进 行 
相应 的 检索 或 排除 操作 。 此 外 , 单 击 右 侧 的 二 按钮 ,可 以 添加 一 个 设置 该 列 是 否 存在 的 过 
滤器 标签 ,标签 用 法 同上 。 


7.4.4 查看 文档 数据 


在 每 次 查询 时 ,Discover 界面 中 部 均 会 显示 前 500 条 文档 数据 ,默认 每 条 数据 均 显示 
_source 字段 , 即 全 部 自 定义 添加 的 字段 。 用 户 也 可 以 在 Management 界面 中 设置 
discover:sampleSize 属性 来 修改 默认 显示 文档 的 数量 。 单 击 任意 一 条 文档 开头 的 ， 按钮 ， 
展开 文档 内 容 后 , 即 可 查看 该 文档 所 包含 的 详细 信息 (包括 Table 和 JSON 两 种 格式 ), 如 
图 7.12 和 图 7.13 所 示 。 

如 需 对 文档 内 容 进 行 排序 ,可 以 通过 在 文档 内 容 列表 的 表 头 单 击 向 上 或 向 下 的 三 角形 
按钮 来 完成 ,反复 单 击 该 按钮 可 以 在 正 序 和 倒序 之 间 切 换 。 

如 上 文 所 述 ,加 载 了 索引 模式 后 的 Discover 界面 左 侧 提供 了 当前 索引 文档 中 的 字段 列 
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Table JSON 


© etimestamp QQO* 
t id aams* 
t _index aamnms# 
天 _score Qam# 
t type AAMD# - 
t custom ip QQ 
t http method QQO* 
六 log size QQAD* 
t os QQan* 
t status code QQ 
t uri aan*# 


January 15th 2618，67:59:36.666| 
PF2kLWOBg1CkS_KXCtxZ 
whale 


doc 
127.6.6.1 


266 


Luispatching/ comons/api/callbal 
Fj_vY6eUwsQql&spiderUUID=d62e' 
9ad5a2 HTTP/1.1 


图 7.12 当前 索引 文件 中 的 字段 (Table 格式 ) 


“@tinestanp": 


}, 
16» “fields": { 


17~ "@tinestanp": [ 
18 | "2818-81-14T23:59:38.6887" 


“http_nethod": 


p": 
dispatching/connons/api/callback? 
-4a4e-4951-b2d8-35d8e29ad5a28taskId=d6: 


"sort": [ 
rw 


"2618-61-14T23:59:36"， 
"GET”, 
5 "Wh 


图 7.13 当前 索引 文件 中 的 字段 (JSON 格式 ) 


表 。 默 认 所 有 字段 全 部 显示 在 可 用 字段 中 。 
一 个 add 按钮 ,如 图 7. 14 所 示 。 单 击 该 按钮 , 则 当前 指定 的 字段 将 显示 在 已 


当 鼠 标 指 针 放 置 在 任意 一 个 字段 上 面 时 ,列表 


右 便 均 会 出 现 
选 字段 中 ,同时 界面 中 每 个 文档 的 详细 信息 将 只 保留 已 和 
选 字段 的 内 容 。 在 展开 的 文档 详细 信息 中 ， wd 二 

钮 ,可 以 设置 所 有 文档 信息 只 保留 已 选 字段 的 信息 A 


次 单 击 该 按钮 , 即 可 将 所 有 文档 恢复 原状 。 


图 7.14 字段 列表 中 的 add 按钮 
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75 使 用 Vsualize 组 件 创建 统计 图 表 


Visualize 组 件 提供 了 从 Elasticsearch 分 片 中 创建 数据 可 视 化 统计 图 表 的 功能 。 这 些 
可 视 化 内 容 基 于 对 Elasticsearch 的 查询 ,同时 可 以 使 用 一 系列 聚合 ,以 便 从 数据 中 提取 和 
处 理 有 用 的 信息 。 所 有 这 些 查 询 的 结果 都 能 以 统计 图 表 的 形式 展示 在 仪表 板 中 ,从 而 便于 
用 户 获 得 数据 的 变化 趋势 。 要 创建 数据 可 视 化 统计 图 表 , 可 以 通过 在 Discover 中 已 保存 的 
检索 或 建立 新 的 查询 来 执行 。 在 Kibana 前 端 界面 左 侧 单 击 Visualize 导航 按钮 , 即 可 跳 转 
到 Visualize 界面 ,如 图 7.15 所 了 示 。 本 节 对 可 视 化 统计 图 表 的 创建 进行 介绍 。 


sualze / whale ple chart 。 Saye Share Refresh CAuoteiesh < OJanuary 14ih2018,20:16:58,589 1 January 15h2018,08:27;20,.405 > 
hh. (eg, Status:200 AND extension:pHP 


Uses lucene query syntax 


agaiere 


Metrics 


e 
四 ss 二 
Buckets 
下 
[ ew hd 


7.15 Visualize 界面 


单 击 Kibana 界面 左 侧 的 Visualize 导航 按钮 进入 Visualize 后 ,界面 中 会 出 现 添加 可 视 
化 内 容 的 按钮 回 , 单 击 该 按钮 后 ,界面 中 会 列 出 18 种 类 型 的 统计 图 表 , 分 别 为 面积 图 、 热 力 
图 、 横 向 条 形 图 、 折 线 图 、 饼 图 、 竖 向 条 形 图 、 数 据 表 、gauge 仪表 板 .goal 仪表 板 、 统 计数 值 、 
坐标 地 图 、 区 域 地 图 、 时 间 线 \ 可 视 化 编辑 器 、 控 件 、Markdown 文本 解析 器 部 件 、 标 签 云 、 
Vega。 选 择 其 中 任意 一 个 类 型 , 即 可 转 到 索引 模式 选择 页 面 。 在 这 里 选择 需要 创建 统计 图 
表 的 数据 的 索引 模式 ,可 以 通过 选择 界面 中 列 出 的 索引 模式 名 称 执行 新 的 查询 来 获取 数据 ， 
也 可 以 通过 选择 之 前 已 保存 的 检索 来 直接 获取 数据 ,这 两 种 方式 分 别 位 于 界面 的 左右 两 边 。 
接 下 来 只 需 为 统计 图 表 指定 各 个 坐标 轴 上 的 数据 , 即 可 生成 统计 图 表 。 各 类 可 视 化 统计 图 
表 的 创建 方法 大 致 相同 。 下 面 以 统计 数值 (Metric) 和 标签 云 (Tag cloud) 为 例 ,对 基本 的 统 
计 图 表 生 成 方法 进行 介绍 。 

在 Visualize 界面 中 单 击 Metric 选项 ,进入 索引 模式 选择 界面 。 在 列表 中 选择 一 个 索 
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引文 件 或 已 保存 的 检索 , 即 可 转 到 可 视 化 创建 界面 中 。 界 面 左 侧 是 可 视 化 数据 的 设置 部 分 。 
在 这 里 设置 统计 数值 的 参数 后 ,可 视 化 效果 即 展示 在 界面 右 侧 区 域 中 ,如 图 7. 16 所 示 。 


@ 
Data = Options x 
Oe 3 1 2 2 6 
Metric Count @ 了 
9 了 


图 ver oi Count 
Agaregation 


Average ~ 


Field 


log slze ~ 


ee 243.749 


Average size 
ee Average slze 


«Advanced 


图 7.16 创建 统计 数值 


每 一 种 统计 图 表 的 数据 均 来 源 于 界面 左 侧 的 聚合 , 单 击 Aggregation 左 侧 的 国 按 钮 ,可 
以 对 该 聚合 的 类 型 .字段 、 别 名 等 属性 进行 设置 。 单 击 Add metrics 按钮 ,可 以 添加 新 的 聚 
合 。 单 击 执行 按钮 国 . 可 以 在 界面 右 侧 显示 出 统计 图 表 的 效果 。 
在 数值 统计 的 创建 过 程 中 ,对 每 一 项 可 视 化 的 聚合 统计 ,只 需 指 定单 个 数据 项 即 可 。 开 
始 创建 时 ,默认 提供 了 对 文档 中 所 有 内 容 的 数值 统计 ( 即 count 聚合 ) 。 图 7. 16 中 的 第 二 个 
合 是 一 个 新 加 入 的 聚合 ,指定 了 聚合 类 型 为 平均 值 (Average) ,指定 字段 为 日 志 长 度 (log_ 
size) ,并 为 该 聚合 设置 了 别名 Average size。 单 击 国 按钮 即 可 看 到 右 侧 的 效果 。 另 外 , 单 击 
上 方 的 Options 标签 可 以 设置 统计 数据 的 字体 大 小 。 如 果 和 希望 Kibana 按 数据 中 不 同 的 数 
值 分 别 进行 统计 ,可 以 添加 Buckets 聚合 ,指定 聚合 类 型 为 Terms, 在 Field( 字 段 ) 下 拉 列 表 
中 指定 要 统计 的 字段 ,最 后 单 击 执行 按钮 国 即 可 。 
下 面 创建 一 个 标签 云 (该 可 视 化 方式 可 以 直观 地 表现 关键 数据 出 现 频 度 的 情况 ) 。 在 界 
面 上 方 单 击 New( 新 建 ) 按 钮 ,创建 一 个 新 的 统计 图 表 , 选 择 Tag cloud 选项 ,然后 选择 一 个 
索引 模式 ,进入 统计 图 表 创 建 界 面 。 在 左 侧 可 视 化 数据 的 设置 项 中 可 看 出 ,每 一 种 聚合 统计 
需要 两 个 数据 项 才 可 以 生成 ,其 中 ,Metrics 聚合 负责 数值 的 计算 操作 ,Buckets 聚合 负责 分 
类 汇总 操作 。 对 于 Metrics 聚合 部 分 ,界面 左 侧 默认 给 出 了 Count 类 型 的 聚合 。 在 Buckets 
聚合 中 ,只 需 单 击 左 侧 的 下 拉 按 钮 ,在 Aggregation 中 选择 Terms, 之 后 在 Field 中 指定 字段 
即 可 ,如 图 7.17 所 示 。 聚 合 设置 完毕 之 后 , 单 击 国 按钮 即 可 生成 标签 云 。 在 左 侧 数据 设置 
面板 上 方 单 击 Options 标签 ,可 以 对 标签 云 中 的 文字 缩放 模式 ,文字 朝向 .字体 大 小 等 属性 
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进行 设置 ,如 图 7. 18 所 示 。 生 成 的 标签 云 如 图 7. 19 所 示 。 


Data Options I» | 其 


Metrics 


回 -se Count 


Buckets 
加 -ar Data ”Options x 


Aggregation 


Text Scale 


Terms 要 linear v 


Field Orientations 


status_code bt single ba 
Order By Font Size 

metric: Count v 
order Size 18 px 72 px 


Descem "| | 5 Show Label 


图 7.17 设置 Metrics 聚合 图 7.18 标签 云 设置 选项 


9 
Data Options x 


Metrics 404 


一 200 


Buckets 


目 302 304 


Aggregation 


Terms ~ 


Field 


status_code ~ 


图 7.19 生成 的 标签 云 


76 使 用 Dashboard 组 件 创建 动态 仪表 板 


Dashboard 组 件 提供 了 集中 显示 已 保存 的 一 系列 可 视 化 内 容 的 功能 。 在 其 界面 中 可 以 
整理 各 种 统计 图 表 并 调整 它们 的 大 小 。 同 其 他 程序 生成 的 对 象 一 样 ,动态 仪表 板 也 可 以 被 
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1227) 


保存 加载、 修改 和 分 享 。 在 Kibana 前 端 界面 左 侧 单 击 Dashboard 导航 按钮 , 即 可 跳 转 到 
Dashboard 界面 ,如 图 7. 20 所 示 。 本 节 对 动态 仪表 板 的 创建 .加 载 和 分 享 等 功能 进行 介绍 。 


Addafiter 中 


whale_area01 whale_ hbaro1 


@timestamp per hour 


whale_pleo1 whale tag_cloudo1 


© e201801.142100 区 
和 @ 2018-01-14 22:00 | 
多 2 
D 0115 0000 < WN 
时 全 和 307 3o4 
> 30 

外 可 a 


01-15 02:00 
@201801-1503:00 ~ 


图 7.20 Dashboard 界面 


7.6.1 创建 新 的 动态 仪表 板 


Dashboard 界面 中 提供 了 和 Discover 类 似 的 时 间 选 择 器 和 检索 输入 框 ,可 通过 它们 实 
现 对 Elasticsearch 中 的 数据 的 预先 查询 ,以 满足 仪表 板 上 各 种 可 视 化 统计 图 表 的 需要 。 在 
界面 上 方 单 击 Add 按钮 (参见 图 10. 22) , 即 可 在 已 保存 的 可 视 化 统计 图 表 或 检索 结果 中 选 
择 要 添加 到 仪表 板 上 的 对 象 , 该 对 象 即 出 现在 界面 中 ,如 图 7. 21 所 示 。 


whale_hbar01 全 


log size: Descend 
蕊 
颗 


165 -Wl 
号 3 § 3 
全 总 全 全 
~ 上 加 
Count 


图 7.21 新 加 入 仪表 板 的 可 视 化 内 容 
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2 
Kibana 为 Dashboard 提供 了 亮色 调和 暗色 调 两 种 不 同 的 主题 风格 ,在 界面 上 
方 单 击 Options 按钮 , 匀 选 其 中 的 Use dark theme 选项 , 即 可 将 界面 转换 为 暗色 调 风 
格 。 该 设置 也 可 以 在 Management 的 高 级 设置 界面 中 进行 设置 ,将 dashboard: 
defaultDarkTheme 项 设置 为 true 即 可 转换 为 暗色 调 风格 。 


在 加 入 新 的 仪表 板 后 ,可 以 对 其 执行 编辑 、 移 动 、 移 除 以 及 查看 详细 数据 和 改变 大 小 等 
操作 。 在 非 编辑 状态 下 ,在 任 一 个 统计 图 表 右 上 角 按 住 ” 按钮 并 拖 电 , 可 以 移动 该 统计 图 
表 到 其 他 位 置 ; 单 击 左 下 角 的 @ 按钮 ,可 以 查看 构成 该 统计 图 表 的 各 类 统计 数据 ,其 中 每 个 
字段 都 提供 了 排序 功能 。 要 编辑 已 加 入 仪表 板 的 可 视 化 内 容 , 需 要 先 单 击 界面 上 方 的 Edit 
按钮 方 可 进行 编辑 。 在 任 一 个 统计 图 表 右 上 角 单 击 意 按钮 ,可 以 弹出 可 操作 的 选项 。 选 择 
Edit visualization( 编 辑 可 视 化 内 容 ) 可 以 转 到 Visualize 中 ,对 该 统计 图 表 进 行 编辑 ;选择 
Delete from dashboard, 可 以 将 该 可 视 化 内 容 移 除 。 按 住 并 拖 电 右 下 角 的 :按钮 ,可 以 改变 
该 可 视 化 内 容 的 大 小 。 

如 需 保 存 一 组 动态 仪表 板 , 可 以 单 击 界面 上 方 的 Save 按钮 ,输入 当前 动态 仪表 板 的 名 
称 , 如 要 将 当前 设置 好 的 时 间 范 围 信息 一 并 保存 ,可 以 勾 选 Store time with dashboard 选 
项 ,最 后 单 击 Save 按钮 即 可 。 


7.6.2 打开 已 保存 的 动态 仪表 板 


在 Dashboard 界面 中 ,要 打开 之 前 保存 的 动态 仪表 板 , 直 接点 选 动态 仪表 板 的 名 称 即 
可 。 如 果 列 表 中 的 项 目 过 多 ,可 以 在 上 方 的 过 滤器 中 输入 部 分 名 称 来 进行 过 滤 。 

如 果 要 对 动态 仪表 板 进行 管理 , 例如 执行 导入 .导出 删除 等 操作 ,可 以 转 到 
Management 界面 中 , 单 击 Dashboards 标签 , 即 可 对 已 保存 的 动态 仪表 板 执 行 各 种 管理 
操作 。 


7.6.3 分 享 动态 仪表 板 


动态 仪表 板 的 分 享 可 以 通过 两 种 方式 来 完成 。 在 Dashboard 界面 中 打开 一 个 动态 仪表 
板 , 单 击 界面 上 方 的 Share 按钮 ,可 以 通过 直接 复制 Share 面板 中 提供 的 URL 链接 ,或 复制 
二 iframe 二 标记 并 嵌入 网 页 前 端 代码 中 ,来 分 享 动态 仪表 板 给 其 他 用 户 。 查 看 分 享 的 动态 
仪表 板 的 用 户 需 要 拥有 Kibana 的 访问 权限 。 

在 Share 面板 右 侧 提供 了 分 享 动态 仪表 板 当 前 状态 的 链接 ,这 样 的 链接 直接 记录 了 仪 
表 板 中 的 状态 信息 ,与 原 仪表 板 相 互 独立 。 考 虑 到 有 些 浏览 器 在 访问 超 长 URL 时 可 能 会 
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出 现 错误 ,Share 面板 中 同时 提供 了 复制 相应 的 短 链接 的 功能 ,访问 时 可 以 解析 成 原始 
的 URL。 


77 使 用 Timalion 组 件 创建 时 间 线 


Timelion 组 件 提供 了 基于 时 间 线 为 不 同 数据 来 源 显示 统计 曲线 的 功能 。 用 户 通 过 编 
写 较为 简单 的 查询 表达 式 来 检索 基于 时 间 序 列 的 数据 。 针 对 较为 复杂 的 计算 问题 ,如 “每 位 
唯一 身份 的 用 户 在 一 段 时 间 内 访问 页 面 的 数量 ”等 ,生成 可 视 化 的 统计 结果 。 在 Kibana 前 
端 界 面 左 侧 单 击 Timelion 导航 按钮 即 可 跳 转 到 Timelion 界面 ,如 图 7. 22 所 示 。 本 节 对 编 
写 查 询 表达 式 生 成 时 间 线 的 方法 进行 介绍 。 


CAuior January 14ih 2016, 14:16.56.560 ID 
New Add Save Delele Open Options Help eresh “《 © January15th2018,16:26:22.165 -| 


.es(Index=whale’, timefield='@timestamp',metric='cardinalty:log slze),.es(index=whale,timeflel 。 auto ~ 


d='@timestamp,, metric='cardinallty:os’) 区 


35 


国 q* > cardinality(log size) 专 
30 -者 qr* > cardinalnytos) 3 


1600 一 1800 一 2000 一 2200 一 0000 一 0200 一 0400 一 0600 一 0800 一 1000 一 1200 一 1400 16:00 


图 7.22 Timelion 界面 


时 间 线 的 生成 可 通过 在 界面 上 方 输入 框 中 编写 Timelion 表达 式 来 完成 。Kibana 内 置 
了 Timelion 表达 式 语言 ,在 用 户 编写 表达 式 的 过 程 中 ,程序 中 会 自动 弹出 相关 提示 ,如 图 7. 23 
所 示 。 

Timelion 表达 式 语言 以 英文 句点 开头 ,以 类 似 于 高 级 编程 语言 中 方法 (函数 ) 调 用 的 格 
式 来 书写 ,例如 图 7. 23 中 的 .es() 。 如 果 要 在 时 间 线 上 添加 另 一 条 曲线 ,需要 将 两 段 英文 句 
号 开头 的 Timelion 表达 式 分 别 写 出 来 (以 逗号 隔 开 ) 。 有 些 表达 式 是 带 有 参数 的 (与 高 级 编 
程 语言 类 似 , 也 是 写 在 括号 中 的 ) ,格式 为 “参数 名 三 表达 式 ”, 参 数 之 间 用 逗号 隔 开 。 以 .es() 
为 例 ,如果 要 统计 索引 文件 whale 中 log_size 的 数量 ,那么 表达 式 应 为 . es(index 一 "whale'， 
timefield 一 timestamp',metric 一 cardinality:log_size) 。 其 中 ,index 参数 指定 了 数据 来 自 索 
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Name 


spllt 


Index 


Argument Accepted 


Types 
String, 
null 


String, 
null 


String, 
null 


String, 
null 


.es(index="whale'timefield="@timestamp',m 


“es() Pull data from an elasticsearch instance (Data Source) 


Information 


Query In lucene query string syntax 


An elasticsearch metric agg: avg, sum, min, max, percentiles or 
cardinality, followed by a fleld. Eg "sum:bytes", 
"percentiles:bytes:95,99,99.9" or Just "count" 


An elasticsearch fleld to spllt the serles on and a limit. Eg, 
"hostname:10" to get the top 10 hostnames 


Index to query, wildcards accepted. Provide Index Pattern 
namefor scrlpted flelds and field name type ahead 
suggestions for metrics, spllt and timefield arguments. 


图 7.23 Timelion 表达 式 编写 过 程 中 的 自动 提示 


引文 件 whale;timefield 参数 指定 了 带 有 时 间 戳 的 字段 为 timestamp; metric 参数 指定 了 有 具 
体 的 查询 表达 式 是 针对 log_size 字段 ,使 用 字段 中 的 基数 来 统计 。 该 统计 生成 的 时 间 线 如 


图 7.24 所 示 。 


7.24 对 log_size 字段 的 统计 结果 时 间 线 


Timelion 与 Dashboard 在 使 用 方法 上 十 分 相似 。 在 Visualize 中 也 可 以 创建 时 间 线 。 
Timelion 支持 对 时 间 线 的 移 除 改变 位 置 等 功能 ,添加 了 全 屏 放大 显示 的 功能 ,也 支持 新 
建 ,保存 ,打开 时 间 线 等 常用 功能 。 除 . es() 表 达 式 以 外 ,还 有 更 多 Timelion 表达 式 可 供 使 
用 。 限 于 篇 幅 , 这 里 主要 对 Kibana 中 有 关 Elasticsearch 的 部 分 进行 介绍 ,对 于 其 他 内 容 , 读 


者 可 以 自行 实践 。 
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78 使 用 Dev Tools 机 行 命令 


Kibana 6. 2 的 Dev Tools 界面 中 默认 包含 一 个 Console 插件 ,该 插件 提供 了 一 个 通过 
RESTful API 与 Elasticsearch 进行 交互 的 界面 。Console 的 界面 由 两 部 分 组 成 , 左 侧 为 
RESTful 命令 行 编辑 器 , 右 侧 则 为 结果 响应 面板 。 在 Kibana 前 端 界面 左 侧 单 击 Dev Tools 
导航 按钮 , 即 可 跳 转 到 Dev Tools 中 的 Console 插件 界面 ,如 图 7. 25 所 示 。 本 节 对 Console 
的 使 用 方法 、 快 捷 键 .设置 等 进行 介绍 。 


Dev Tools History 。 Setiings 。 Help 


Console 


1 POST whale/_searchl pF 1- 四 
"auery": { 

} "natch_all": {} 
6 有 


"failed": @ 


hits": { 
"total”: 31226, 
"max_score”: 1, 


“_index": "whale”, 
“type”: "_doc”, 
“id": "QUzhtwgiolcks_ vcow"， 
score”: 1, 
“source”: 
“@tinestanp": “2618-61-14T13:27:95”， 
“http_nethod": "POST”, 


“custon_ ip”: "172.16.1.203", 
Us "alspatehinajeommoni/tnttrack HT 


图 7.25 Dev Tools 中 的 Console 界面 


7.8.1 在 Console 中 执行 命令 


在 本 书 的 第 2 章 和 第 3 章 中 ,对 于 Elasticsearch 的 部 分 操作 是 在 终端 和 可 视 化 工具 
head 中 执行 的 。 终 端 中 使 用 的 是 curl 语法 。 在 head 工具 的 复合 查询 页 面 中 ,可 以 直接 在 
输入 框 中 指定 查询 的 索引 和 类 型 。 而 Kibana 的 Console 中 的 命令 行 编辑 器 支持 类 似 curl 
的 语法 格式 。 不 同 的 是 ,Console 命令 行头 部 直接 由 HTTP 方法 和 查询 的 索引 、 类 型 等 信息 
构成 ,命令 的 主体 也 不 需要 放 进 -d 后 面 的 参数 中 。 以 查询 索引 文件 whale 中 的 全 部 文档 信 
息 为 例 , 代 码 段 7. 1 是 采用 了 curl 语法 的 查询 命令 。 


代码 段 7.1: 在 终端 执行 curl 语法 的 查询 命令 
curl - H 'Content- Type: application/jsan' - XEET "http://localhost:9200/ 
_search" -d" 
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代码 段 7.2 则 为 Console 中 支持 的 语法 。 


代码 段 7.2: 在 Kibana 中 以 console 插 件 支持 的 语法 执行 查询 命令 
GET whale/_search 
{ 
"apery": { 
"atch all": {} 
} 
. 


在 编写 命令 行 的 同时 ,编辑 器 会 为 当前 编写 的 代码 自动 设置 缩 进 。 写 人 具体 内 容 时 , 编 
辑 器 中 也 会 弹出 代码 提示 列表 。Console 支持 多 段 命 令 批 量 执行 , 既 可 以 将 其 中 两 段 或 更 
多 的 命令 选中 来 批量 执行 ,也 可 以 将 光标 放置 在 其 中 一 段 上 , 单 击 右 侧 的 执行 按钮 辽 单 独 
执行 这 一 段 。 图 7. 26 中 包含 3 段 命令 ,其 中 光标 位 置 在 第 三 段 上 , 带 有 执行 按钮 和 工具 按 
钮 的 Action 菜单 跟随 光标 定位 在 第 三 段 命令 右 侧 。 


1 | PUT website 
2 {G3)} 


9 
46 |GET website/_search 


42» "query":{ 
3 "match. 


all":{} 
44= 

45< |] 

46 

47 PUT Whale > 
48 

49- "mappings": { 

S50 "_doc":{ 

51 "properties": { 

52 "custom ip":{ 

53 "type”: “keyword" 

54* }, 

55 ~ "@tinestanp":{ 

56 "type”: "date”, 

57 "format":") -MM-dd'T'HH:mm:ss” 
58 ~ 记 

59~ "http_method":{ 

60 mtype": "| 

61* 下 

627 "uri":{ 

63 be "keyword” 

64* 1 


图 7.26 编辑 器 可 以 执行 多 段 命 令 , 当 前 选中 第 三 段 
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Action 菜单 右 侧 的 嘱 按 钮 提供 了 Auto indent( 自 动 缩 进 ) 功 能 ,光标 所 在 段 的 代码 格 
式 不 整齐 时 ,将 光标 定位 到 该 段 代 码头 部 , 单 击 该 按钮 可 以 将 代码 梳理 成 缩 进 格式 良好 的 代 
码 。 如 果 当 前 代码 已 经 是 格式 良好 的 代码 ,再 次 单 击 | 天 按钮 ,选择 Auto indent, 可 以 将 代 
码 的 主体 压缩 为 单行 ,如 图 7. 27 所 示 。 


1 |POST whale/_search 
2 {"query":{"natch_all":{}}} ed 


图 7.27 压缩 成 单行 的 代码 


Console 会 自动 保存 最 近 的 500 条 成 功 执 行 的 命令 行 , 单 击 界面 上 方 的 History 按钮 ， 
界面 中 会 显示 历史 记录 面板 。 其 中 左 侧 是 历史 记录 列表 ,选中 其 中 一 条 并 单 击 Apply 按 
钮 ,可 以 将 选中 的 命令 添加 到 当前 光标 所 在 位 置 。 单 击 Clear 按钮 , 则 会 将 历史 记录 清除 。 


7.8.2 ”Console 快捷 键 


Console 的 编辑 器 支持 快捷 键 功能 。 在 编写 命令 行 时 使 用 相应 的 快捷 键 ,有 助 于 提高 
编写 的 效率 。 在 这 一 点 上 ,Console 比 head 使 用 起 来 更 加 方便 。 下 面 是 一 组 用 于 常规 编辑 
的 组 合 键 : 

。 Ctrl 十 I: 将 光标 所 在 的 命令 梳理 为 缩 进 格式 良好 的 代码 ,或 将 格式 良好 的 代码 压缩 

为 单行 。 

。 Ctrl 十 Space: 弹出 自动 完成 代码 的 提示 列表 。 

。 Ctrl 十 Enter: 执行 命令 。 

。 Ctrl 十 个 /yy : 将 光标 向 上 /向 下 跳 到 某 段 命令 的 开头 /结尾 。 

Alt 十 L: 将 光标 所 在 的 命令 折 生 为 一 个 { 包 )} 图 标 , 或 从 {ES} 图 标 恢 复 为 原来 的 
代码 。 

在 Console 的 编辑 器 弹出 代码 提示 的 同时 ,另外 3 种 按键 可 以 用 来 进行 提示 框 内 部 的 
操作 。 

。 方向 键 个 /+ : 在 提示 列表 中 的 不 同 项 目 之 间 进 行 选择 。 

。 Tab 或 Enter: 选择 当前 提示 代码 ,自动 完成 编写 。 

。 Esc: 关闭 提示 框 。 


六 

单 南 Dev Tools 界面 右上 角 的 Help 按钮 ,界面 中 会 显示 出 关于 RESTful API 
和 快捷 键 的 使 用 说 明 。 上 述 快捷 键 仅 为 常规 键盘 布局 下 的 按键 设置 。 使 用 说 明 中 还 提 
到 了 Mac 键盘 布局 中 的 Command 键 和 Option 键 ,Mac 用 户 可 阅读 Help 面板 中 的 使 用 
说 明 。 
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7.8.3 ”Console 设置 


单 击 界面 右上 方 的 Settings 按钮 ,界面 中 会 显示 Console 设置 面板 。 在 其 中 可 以 设置 
界面 中 代码 和 结果 的 字号 大 小 、 是 否 允 许 换行 以 及 自动 完成 编写 的 功能 。 

此 外 ,在 Kibana 安装 主 目录 下 的 config 目录 中 的 配置 文件 kibana. yml 中 可 以 对 
Console 进行 配置 ,下 面 是 3 个 最 常用 的 配置 项 : 

。 console. enabled: 指定 是 否 启用 Dev Tools 界面 中 的 Console 插件 ,默认 为 true。 

。 server. host: 指定 Kibana 可 以 接受 来 自 哪些 主机 的 访问 ,默认 为 localhost, 即 只 有 本 

机 可 以 访问 。 如 果 和 希望 Kibana 可 被 任何 主机 访问 ,可 以 将 该 设置 项 设 为 0.0.0.0。 
。 server. port: 指定 Kibana 运行 在 哪个 端口 ,默认 为 5601。 


79 网 站 性 能 监控 可 视 化 应 用 己 倒 


利用 本 书 前 面 介绍 的 基于 Logstash 的 网 站 操作 日 志 , 本 节 介 绍 基于 Kibana 的 网 站 性 
能 监控 可 视 化 应 用 实例 。 


7.9.1 概述 

实验 数据 集 来 源 自 Elasticsearch 中 名 为 whale 的 索引 文件 ,该 索引 文件 的 主要 字段 及 
其 存储 的 实际 数据 示例 如 图 7. 28 所 示 ,这 里 的 各 个 字段 的 含义 如 其 名 称 的 英文 所 示 ,在 此 
不 再 袭 述 。 本 实例 要 用 Kibana 实现 网 站 日 志 数据 统计 ,以 条 形 统 计 图 .数据 表 、 标 签 云 .时 
间 线 和 统计 数值 等 形式 展示 出 来 。 


"_index": "whate"， 

"_type”: "_doc”, 

"id": "sl12kLNQBg1CkS_KXC9Uh"， 
"version": 1, 

"_score": null, 

"source”: { 


": "2918-61-14T23:59:56"， 
GET"， 


"status_code": "266"， 

"os": "Windows 19"， 

"Log_size": 143, 

": "172.16.1.154", 

/connons/spider /getLongConnectionPort HTTP/1.1" 


图 7.28 日 志文 件 示例 


7.9.2 使 用 Visualize 实现 可 视 化 


目前 在 许多 新 媒体 网 站 中 均 使 用 Markdown 来 快速 创建 美观 ,简洁 的 文字 内 容 。 拥 有 
一 个 Markdown 创建 的 文字 板块 可 以 使 说 明 性 文字 排版 整洁 一目了然 。 
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在 Visualize 界面 中 选择 Markdown widget, 并 在 左 侧 编 辑 区 域 填写 Markdown 格式 的 
信息 ,如 代码 段 7. 3 所 示 。 


代码 段 7.3: 填写 Markscwn 格式 的 文本 信息 
#Whale 

### 数 据 分 析 可 视 化 展示 

* 条 形 统计 图 

* 数据 表 

* 饼 图 

* 时 间 线 

* 统计 数值 


然后 单 击 国 按钮 , 即 可 在 界面 右 侧 得 到 如 图 7. 29 所 示 的 可 视 化 展示 结果 。 单 击 屏幕 
上 方 的 保存 按钮 ,将 该 可 视 化 结果 保存 起 来 。 和 
接 下 来 使 用 条 形 统计 图 来 展示 用 户 访问 服务 器 的 网 络 状态 码 | Whale 

status_code 字段 的 数据 。 在 Visualize 界面 中 选择 Vertical Bar 
Chart 选项 ,在 界面 左 侧 已 有 的 Y-Axis 中 的 Aggregation 下 拉 列 表 
中 选择 Percentile Ranks 选项 来 统计 status_code 不 同 数 值 的 占 比 。 。 条 形 统计 图 
在 Values 中 添加 4 个 数值 ,分 别 为 200、302、304 和 404( 这 只 是 当 | ”数据 表 

前 whale 索引 文件 中 的 内 容 ,读者 需要 根据 自己 的 数据 文件 的 实际 | ” 鲁 图 


数据 分 析 可 视 化 展示 


内 容 来 确定 ) 。 下 面 添 加 X-Axis 聚合 ,在 Aggregation 下 拉 列 表 中 i 
。 统计 数值 


选择 Date Histogram, 设 置 Field 为 @timestamp, 设 置 Interval( 指 于 一 一 一 
定 间 隔 ) 为 自动 , 单 击 图 按钮 后 ,界面 右 侧 会 生成 如 图 7. 30 所 示 的 图 7.29 Markdown 部 件 
柱状 图 。 单 击 屏幕 上 方 的 保存 按钮 ,将 该 可 视 化 结果 保存 起 来 。 可 视 化 结果 


@ Percentile rank 200 of "log_size” ®@ Percentile rank 302 of "log_size” @ Percentile rank 304 of "log_size" 
® Percentile rank 404 of "log_sizer 
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图 7. 30 Vertical Bar Chart 可 视 化 结果 
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下 面 使 用 数据 表 对 用 户 访 问 服务 器 的 网 络 状 态 数据 进行 具体 数值 方面 的 统计 。 在 
Visualize 界面 中 选择 Data Table 选项 , 左 侧 靠 上 的 Metric 保持 Count 聚合 不 变 , 在 下 方 添 
加 一 个 Split Rows 聚合 ,Aggregation 选择 Terms, Field 选择 status_code, Order By 选择 
Term,Order 选择 Desending,Size 填写 4( 数 据 中 仅 包 含 4 种 状态 码 )。 将 Options 标签 中 
的 Per page 设置 为 4, 以 避免 表格 下 方 出 现 大 面积 空白 。 单 击 国 按钮 ,界面 右 侧 将 出 现 如 
图 7. 31 所 示 的 数据 表 。 单 击 屏幕 上 方 的 保存 按钮 ,将 该 可 视 化 结果 保存 起 来 。 


status_ code: Descending $ 


404 
304 
302 


200 


EXport: Raw 过 Formatted 二 


图 7.31 Data Table 可 视 化 结果 


不 同 的 用 户 在 访问 服务 器 时 使 用 的 操作 系统 各 不 相同 ,这 里 使 用 饼 图 对 用 户 使 用 的 操 
作 系 统 名 称 进行 统计 并 展示 各 种 操作 系统 的 占 比 。 在 Visualize 界面 中 选择 Tag Cloud 选 
项 。 左 侧 靠 上 的 Tag Size 保持 Count 聚合 不 变 。 在 下 方 的 Buckets 聚合 中 ,设置 聚合 类 型 
为 Term, 字 段 指定 os, 即 统计 访问 的 操作 系统 版 本 。 下 方 的 Size 设 为 6( 数 据 中 仅 包含 6 种 
操作 系统 版 本 ) ,其 他 项 保持 默认 设置 即 可 。 单 击 国 按钮 ,界面 右 侧 将 出 现 如 图 7. 32 所 示 
的 标签 云 。 单 击 屏幕 上 方 的 保存 按钮 ,将 该 可 视 化 结果 保存 起 来 。 


Windpws XP 


Windows 8.1 Linux 


Windows 10 


Mac OS X 10.12.1 


Windows Server 2008 R2 


7.32 Tag Cloud 可 视 化 结果 


下 面 使 用 时 间 线 来 统计 和 展示 服务 器 日 志 的 分 时 数据 量 以 及 用 户 访 问 服务 器 的 网 络 状 
态 码 走势 。 在 Visualize 界面 的 输入 框 中 输入 关于 日 志 记录 长 度 字段 log_size、 网 络 状态 码 
字段 status_code 以 及 操作 系统 版 本 字段 os 的 查询 表达 式 ,如 代码 段 7.4 所 示 。 
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代码 段 7.4: 在 Timelion 界 面 填写 查询 表达 式 

.es (index= "whale', timefield= "timestampvmetricr "cardinality:log size")， 
.es (index= "Whale', timefield= ‘timestanrp',metric= 'cardinality:status code’), 
.es (index= "Whale', timefield= '@ timestanp',metric= "cardinality:os') 


单 击 国 按 钮 ,查看 界面 中 时 间 线 是 否 出 现 起 伏 。 如 果 时 间 线 仍 为 直线 ,可 以 尝试 单 击 
界面 右上 角 的 时 间 选 择 器 ,选择 一 个 更 大 的 时 间 范 围 。 时 间 线 出 现 起 伏 之 后 ,可 以 按 下 鼠标 
左 键 抑 忠 , 滑 过 起 伏 的 部 分 ,使 得 时 间 轴 上 的 时 间 段 缩小 ,使 起 伏 部 分 占 满 屏幕 。 在 操作 成 
功 的 情况 下 ,界面 右 侧 将 出 现 如 图 7. 33 所 示 的 曲线 。 单 击 屏幕 上 方 的 保存 按钮 ,将 该 可 视 
化 结果 保存 起 来 。 


) 
1 

国 q* > cardinaliyllag spze) 。 访 1 
20 - 国 q* > cardinality(status_code) 这 | 
图 q* > qprdinality( $ ! 
! 

! 


图 7.33 Timelion 可 视 化 结果 


最 后 使 用 数据 统计 功能 统计 服务 器 日 志 分 时 数据 量 的 平均 值 和 最 大 值 。 在 Visualize 
界面 中 选择 Metrics 选项 ,将 左 侧 已 有 的 聚合 展开 ,Aggregation 选择 Average, Field 选择 
log_size, 然 后 添加 一 个 新 的 Metric, Aggregation 选择 Max,Field 仍 选 择 log_size。 在 下 方 
的 Buckets 聚合 中 , 单 击 Split Group 按钮 添加 新 聚合 , Aggregation 选择 Date Histogram， 
Field 选择 @timestamp,Interval 选择 Daily。 在 Options 标签 中 ,展开 Style 部 分 ,将 字号 修 
改 为 18pt。 单 击 国 按 钮 ,界面 右 侧 将 出 现 如 图 7. 34 所 示 的 统计 数值 。 单 击 屏幕 上 方 的 保 
存 按钮 ,将 该 可 视 化 结果 保存 起 来 。 


242. 244.6 
2018-01-14- Average log size 2018-01-15 - Average log size 


2,130 1,998 
2018-01-14 - Maxlog size 2018-01-15 - Max log_size 


图 7. 34 Metric 可 视 化 结果 
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7.9.3 使 用 Dashboard 整合 可 视 化 结果 


单 击 Kibana 界面 左 侧 的 Dashboard 导航 按钮 ,进入 Dashboard 界面 。 单 击 界面 上 方 的 


Add 按钮 ,逐个 将 上 面 创建 好 的 6 种 可 视 化 统计 


图 表 添 加 到 动态 仪表 板 中 ,并 通过 拖 忠 每 一 


种 统计 图 表 上 的 标题 栏 和 J: 按钮 来 调整 其 位 置 和 大 小 ,Dashboard 将 为 每 一 个 面板 自动 调 


整 位 置 和 大 小 ,使 所 有 面板 在 界面 了 
选 保存 时 间 的 选项 ,保存 该 动态 仪表 板 。 可 视 化 


P 对齐。 全 部 操作 完成 后 , 单 击 屏 幕 上 方 的 保存 按钮 , 勾 
展示 的 最 终 效果 如 图 7. 35 所 示 。 
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图 7.35 可 视 化 展示 最 终 效果 


单 击 界面 上 方 的 Edit 按钮 ,再 单 击 Options 按钮 , 勾 选 Use dark theme 选项 ,可 以 将 界 
面 切换 至 暗色 调 主题 。 切 换 后 的 动态 仪表 板 展示 效果 如 图 7. 36 所 示 。 


数据 分 析 可 视 化 展示 


图 7.36 暗色 调 主题 的 可 视 化 展示 效果 
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710 扩展 知识 与 阅读 


信息 可 视 化 技术 是 利用 计算 机 实现 对 抽象 数据 的 可 视 化 表示 ,以 此 来 增强 人 们 对 抽象 
信息 的 感知 。 它 不 仅 在 揭示 信息 资源 的 广度 与 深度 上 有 很 大 优势 ,而 且 能 够 将 隐藏 在 信息 
资源 内 部 复杂 的 、 抽 象 的 信息 以 直观 的 方式 呈现 给 用 户 。 它 可 以 利用 人 们 对 可 视 模 式 快速 
识别 的 能 力 ,将 数据 信息 转化 为 视觉 形式 ,形象 化 地 揭示 数据 深层 次 的 联系 、 趋 势 等 。 近 年 
来 ,信息 可 视 化 的 研究 已 经 引起 了 科研 人 员 的 密切 关注 ,欧美 国家 启动 了 相应 的 科研 计划 ， 
在 理论 模型 和 应 用 技术 方面 已 取得 了 较 大 进展 ,并 在 IEEE 系列 会 议 、 信 息 可 视 化 和 人 机 交 
互相 关 会 议 ( 如 SIGGRAPH、ACM PVG、ACM SIGCHI 等 ) 上 发 表 了 一 些 重要 的 研究 成 
果 。 为 了 建立 数据 的 可 视 映 射 ,有 的 文献 提出 了 可 视 化 参考 模型 来 描述 原始 数据 、 数 据 表 
格 、 可 视 化 架构 和 视图 之 间 的 转换 关系 以 及 用 户 根据 任务 通过 人 机 界面 进行 的 数据 变换 、 可 
视 化 映射 .视图 变换 等 操作 。 

已 有 的 一 些 可 视 化 工具 软件 包括 : 

(1) D3.js。 它 是 一 个 强调 网 页 标准 的 用 来 创建 数据 可 视 化 的 JavaScript 库 , 使 用 
HTML、SVG 和 CSS, 可 以 让 用 户 以 数据 驱动 的 方式 操作 DOM ,可 绑 定 任意 数据 到 DOM， 
可 创建 交互 式 SVG 条 形 图 ,可 从 数据 集 里 产生 HTML 表格 ,并 提供 多 种 组 合 和 插件 来 增 
强 兼容 性 。 

(2) Gephi。 它 是 一 个 能 在 Windows、Linux 和 Mac OS 系统 上 运行 的 开源 程序 ,用 于 
可 视 化 地 探索 数据 ,其 插件 更 加 个 性 化 。 

(3) R Project。 它 是 在 UNIX、Windows 和 Mac OS 上 运行 的 统计 计算 软件 ,可 用 于 数 
据 处 理 、 计 算 和 图 表 展 示 , 是 用 于 即时 分 析 的 集成 工具 。 

(4) Prefuse 软件 包 和 Prefuse Flare 工具 包 。 前 者 为 JavaScript 提供 了 可 视 化 框架 ,而 
后 者 为 Adobe Flashplayer 等 提供 了 可 视 化 和 动画 化 工具 ,能 完成 数据 建 模 、 数 据 交 互 化 和 
可 视 化 ,对 各 种 视觉 布局 进行 数据 结构 优化 ,支持 动画 、 动 态 搜索 和 数据 库 连 接 。 

基于 Kibana 的 信息 可 视 化 能 够 完成 对 信息 的 显示 处 理 , 比 较 简单 和 易于 上 手 ,这 也 是 
Kibana 广 为 流 行 的 原因 之 一 。 除 Kibana 外 ,也 有 一 些 免费 开源 方案 可 用 来 支撑 数据 可 视 
化 应 用 ,如 上 述 的 D3. js、Gephi 等 。 可 视 化 的 工具 还 包括 Excel、 Google Spreadsheets、 
Tableau 等 。 在 编程 工具 方面 ,R 语言 是 一 个 用 于 统计 学 计算 和 绘图 的 语言 ,也 能 在 数据 的 
可 视 化 表示 方面 发 挥 很 大 的 作用 ( 周 苏 ,2016)。 对 学 术 界 来 说 ,为 了 建立 数据 的 可 视 映射 
需要 建立 可 视 化 参考 模型 ,用 来 描述 原始 数据 数据 表格 .可视化 架构 和 视图 之 间 的 转换 关 
系 以 及 用 户 根据 任务 通过 人 机 界面 进行 的 数据 变换 、 可 视 化 映射 ,视图 变换 等 操作 。 相 关 资 
料 可 以 参阅 文献 ( 周 宁 ,2005)。 
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7.11 本 章 小 结 


Kibana 是 为 Logstash 和 Elasticsearch 等 组 件 提供 的 日 志 可 视 化 分 析 工 具 , 可 使 用 它 
对 日 志 进 行 高 效 的 可 视 化 ,分 析 等 各 种 操作 。 在 基于 Logstash 日 志 的 数据 基础 上 ,本 章 对 
Kibana 的 数据 检索 可视化 统计 图 表 ,动态 仪表 板 、 时 间 线 和 开发 工具 的 一 般配 置 进行 了 概 
述 , 并 以 Logstash 日 志 为 例 ,介绍 了 基于 Kibana 的 可 视 化 实现 。 通 过 Kibana 提供 的 交互 
式 界面 ,可 以 很 快 定位 到 异常 事件 或 者 将 其 查找 范围 缩小 。 


PA Zs 
Chapter 8 第 ,8 章 ， 


基于 X-Pack 的 系统 运行 监控 


X-Pack is an Elastic Stack extension that bundles security, alerting, 
monitoring, reporting, and graph capabilities into one easy-to-install package. 
While the X-Pack components are designed to work together seamlessly，you 
can easily enable or disable the features you want to use. Prior to Elasticsearch 
5.0.0, you had to install separate Shield，Watcher，and Marvel plugins to get 
the features that are bundled together in X-Pack. With X-Pack, you no longer 
have to worry about whether or not you have the right version of each plugin， 
just install the X-Pack for the Elasticsearch version you re running, and you re 
good to go! 

https://www.elastic. co/ guide/en/x-pack/ current/xpack-introduction. html 


在 Elasticsearch 2. x 及 更 早 的 版 本 中 ,可 以 集成 head、 Marvel、 Shield、 Watcher、 
Reporting、Graph 等 多 种 插件 。 升 级 到 5. 0 版 本 之 后 ,第 三 方 head 工具 不 再 以 插件 形式 集 
成 (有 关 head 的 内 容 详 见 第 2 章 的 介绍 )。 而 对 于 Marvel、 Shield、 Watcher、 Reporting、 
Graph 等 插件 , Elastic 公司 推出 了 新 的 X-Pack 插件 取而代之 。X-Pack 插件 包含 了 
Security( 即 以 前 版 本 中 的 Shield)、Monitoring( 即 以 前 版 本 中 的 Marvel)、Alerting and 
Notification 以 及 Graph 等 功能 ,本 章 基 于 X-Pack 6. 2.4, 对 相关 插件 的 使 用 方法 进行 介绍 。 


81 XPack 概 述 


在 Elasticsearch 5. 0 版 本 之 前 ,各 种 插件 ,如 Shield、Watcher、Marvel 等 ,需要 分 别 安装 
和 使 用 。 在 Elasticsearch 5. 0 版 本 发 布 之 后 ,Elastic 公司 推出 了 X-Pack, 将 上 述 插件 全 部 
集成 在 了 独立 的 X-Pack 中 。X-Pack 是 Elastic Stack 的 扩展 ,将 Security、 Alerting、 
Monitoring、Reporting、Graph、Machine Learning 等 插件 集成 到 同一 个 软件 包 中 .安装 也 比 
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较 简便 。X-Pack 可 以 与 Elasticsearch 和 Kibana 无 颖 对 接 .协同 工作 ,其 中 的 部 分 组 件 也 可 
以 根据 实际 需要 随时 启用 或 禁用 。X-Pack 的 出 现 . 消 除了 各 插件 因 版 本 不 一 致 等 而 产生 的 
各 种 问题 ,用 户 只 需 使 X-Pack 的 版 本 与 Elasticsearch 保持 一 致 , 即 可 正常 使 用 。 


82 豆 装 XPack 


使 用 X-Pack ,需要 Elasticsearch 和 Kibana 均 已 完成 安装 。 它 的 安装 方法 如 下 : 

首先 下 载 Elastic 公司 发 布 的 X-Pack 软件 包 , 可 以 通过 两 种 方法 来 下 载 安装 ; 

(1) 通过 在 终端 输入 命令 来 完成 。 进 入 Elasticsearch 的 bin 目录 ,并 在 终端 执行 命 
令 . /elasticsearch-plugin install x-pack ,程序 将 会 自动 进行 安装 。 

(2) 访问 Elastic 官网 https://artifacts. elastic. co/downloads/packs/x-pack/ x-pack- 

6. 2. 4. zip 下 载 软件 包 。 注 意 ,链接 中 的 6. 2. 4 是 软件 包 的 版 本 号 ,该 版 本 号 应 该 与 当前 已 
安装 的 Elasticsearch 版 本 一 致 (读者 应 根据 实际 情况 选择 相应 的 软件 包 , 下 同 )。 下 载 完 毕 
后 ,在 Elasticsearch 和 Kibana 未 启动 的 状态 下 进行 安装 。 不 要 将 ZIP 文件 解压 ,直接 进入 
Elasticsearch 的 bin 目录 ,在 终端 执行 以 下 命令 : 


./elasticsearch- plugin install file:/// 软 件 包 的 绝对 路 径 /x-pack- 6.2.4.zip 


安装 过 程 中 ,X-Pack 会 请 求 附加 权限 ,以 便 Watcher 可 以 发 送 电子 邮件 通知 ,这 可 能 会 


带 来 某 些 安全 民 ， 安 装 Elasticsearch 时 的 终端 界面 如 图 8. 1 所 示 


图 8.1 为 Elasticsearch 安装 X-Pack 插件 
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在 Kibana 中 安装 X-Pack 插件 时 , 需 进入 Kibana 的 bin 目录 ,在 终端 执行 以 下 命令 
./kibana- plugin install file:/// 软 件 包 的 绝对 路 径 /x-pack- 6.2.4.zip 
安装 过 程 的 终端 界面 如 图 8. 2 所 示 。 


bin$ ./kibana-plugin install file:/// 


r/x-pack-6 


eving metadata from plugin archive 


cting plugin archive 
Extraction conplete 
optimizing and caching browser bundles 
Plugin instattation conplete 
[cy@cy-N53SN: 


图 8.2 为 Kibana 安装 X-Pack 插件 


2 
“file:/// 路 径 ” 的 写法 是 一 种 特定 的 协议 书写 格式 ,由 “file://” 和 “/ 路 径 ” 组 
成 。 在 上 面 的 命令 中 提供 的 是 软件 包 的 绝对 路 径 。 


要 对 X-Pack 进行 更 新 ,应 先 印 载 旧版 本 的 插件 ,再 重新 安装 最 新 版 本 的 插件 。 印 载 
X-Pack 需 要 在 终端 执行 如 下 命令 : 


bin/elasticsearch- Plugin remove x- Pack 
bin/kibana- Plugin remove x- Pack 


印 载 插件 后 ,重启 Elasticsearch 和 Kibana 即 可 。 


83 ”Security 插件 与 安全 性 


X-Pack 中 的 Security 插件 可 以 实现 集群 安全 和 数据 的 密码 保护 ,其 中 还 包含 和 
安全 机 制 , 如 通信 加 密 、 基 于 角色 的 访问 控制 .IP 过 滤 以 及 客户 端 访 问 的 安全 机 制 等 。 本 节 
对 加 入 X-Pack 插件 后 Kibana 的 部 分 安全 功能 以 及 与 安全 集群 交互 操作 的 方法 进行 刘 闹 ， 


8.3.1 身份 验证 机 制 与 用 户 管理 


为 实现 集群 安全 ,需要 集群 中 的 每 一 个 节点 均 安装 了 对 应 版 本 的 X-Pack 插件 。 默 认 
情况 下 ,用 户 认 证 机 制 是 开启 的 。 安 装 X-Pack 插件 后 ,用 户 需 要 先 为 X-Pack 内 置 的 用 户 
账户 设置 密码 方 可 正常 登录 

X-Pack 中 的 Security 插件 内 置 3 个 账号 : 超级 管理 员 账 号 名 为 elastic, 拥 有 对 集群 的 
完全 访问 权限 ;Kibana 管理 员 账 号 名 为 kibana, 用 于 控制 Kibana 对 Elasticsearch 进行 连接 
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和 交互 ;Logstash 管理 员 账 号 名 为 logstash_system, 用 于 控制 Logstash 存储 Elasticsearch 
中 来 自 Monitoring 插件 的 索引 数据 。 

设置 内 置 用 户 密 码 最 简单 的 方式 是 使 用 setup-passwords 工具 执行 批量 设置 ,但 该 操作 
是 一 次 性 的 ,如 要 二 次 修改 密码 , 则 只 能 使 用 Kibana 中 的 Management 程序 ,或 使 用 X-Pack 
提供 的 Change Password API 来 执行 。 启 动 Elasticsearch, 然 后 进入 Elasticsearch 目录 下 
的 bin/x-pack 目录 ,执行 如 下 终端 命令 来 批量 设置 内 置 用 户 的 密码 : 


./setup- passwords interactive 
此 时 程序 将 提示 用 户 对 3 个 用 户 分 别 设置 和 确认 密码 ,如 图 8. 3 所 示 。 


cy@cy-H53SN: $ ./setup-passwords interactive 
Initiating the = elastic, kibana, logst s 
ten 
You will be prompted 

confirm that you would 1 


图 8.3 为 3 个 内 置 用 户 设置 密码 


接着 ,在 Kibana 配置 文件 中 加 入 已 设置 的 账号 和 密码 信息 ,进入 Kibana 目录 下 的 
config 目录 ,编辑 kibana. yml 配置 文件 ,将 其 中 关于 Elasticsearch 登录 的 配置 修改 为 如 下 
配置 信息 : 

elasticsearch.username: "elastic" 

elasticsearch.password: "elastic" 


其 中 ,第 一 行 指定 用 户 名 elastic, 第 二 行为 elastic 用 户 设置 登录 密码 。 

启动 Kibana, 然 后 在 浏览 器 中 访问 Kibana, 将 不 会 直接 显示 Kibana 界面 ,而 是 先 显示 
用 户 登录 界面 ,如 图 8.4 所 示 。 用 户 需要 输入 登录 信息 ,完成 身份 认证 后 方 可 进入 Kibana 
的 操作 界面 。 


图 8.4 Kibana 的 登录 界面 
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如 要 使 用 Change Password API 来 修改 用 户 密码 ,运行 如 代码 段 8. 1 所 示 的 终端 命令 
即 可 ,其 中 的 二 username 二 表示 要 修改 密码 的 用 户 名 。 


代码 段 8.1: 修改 用 户 密码 

curl -H 'Content- Type: applicaticn/json' - XEOST -u elastic:elastic 
"localhost:9200/_xpack/security/user/< username> / Password' -qd '{ 
"Password" : "new Password" // 设 置 新 密码 


} 


在 Kibana 前 端 界面 中 也 提供 了 修改 用 户 密码 的 功能 。 登 录 Kibana 后 , 单 击 左 侧 导 航 
栏 下 方 的 用 户 名 ,界面 右 侧 即 显示 出 对 当前 用 户 的 管理 功能 ,在 其 中 可 以 设置 用 户 的 电子 邮 
件 地 址 以 及 修改 密码 。 单 击 Change Password 按钮 , 即 可 在 弹出 的 文本 框 中 修改 密码 ,如 
图 8.5 所 示 。 


Account Settings 
Username 
elastic 


Email 
(No emall) 


Current Password 
New Password 


New Password Agaln, Please 


图 8.5 设置 用 户 信息 和 修改 密码 


过 
EE 在 为 内 置 账号 elastic 修改 密码 的 同时 ,需要 在 Kibana 安装 主 目录 下 的 config 目 
录 中 的 配置 文件 kibana. yml 中 进行 相应 的 配置 , 即 在 文件 中 修改 配置 项 elasticsearch. 
password:“ 新 密码 ”。 


安装 X-Pack 插件 后 , Management 程序 中 含有 Security、 Elasticsearch、Kibana 和 
Logstash 4 种 管理 选项 。 管 理 员 账 户 可 以 通过 这 里 提供 的 功能 来 管理 各 类 功能 和 用 户 。 例 
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如 ,在 Security 管理 选项 中 单 击 Users 链接 , 即 可 跳 转 至 系统 中 的 用 户 管理 页 面 ,查看 系统 

中 所 有 用 户 的 列表 。 界 面 上 方 的 Search 输入 框 可 以 用 来 

对 现 有 用 户 进行 过 滤 查 找 , 单 击 其 中 一 个 用 户 名 , 即 可 转 到 | 、ew user 

该 用 户 的 详细 信息 页 面 ,其 中 包括 用 户 名 ,密码 修改 链接 、| 必 

用 户 角 色 等 信息 。 a 
要 添加 新 用 户 ,可 以 在 用 户 管理 页 而 中 单 击 EEEE 

按钮 ,在 新 用 户 创建 页 面 中 填写 用 户 名 、 密 码 .确认 密码 、 用 | Password again Please 

户 全 名 和 电子 邮件 地 址 ,并 单 击 下 方 的 Add a role 为 新 用 | “ 

户 设置 权限 (可 以 添加 多 个 权限 ) ,最 后 单 击 国王 按钮 保存 | "me 

即 可 ,如 图 8. 6 所 示 。 已 添加 的 新 用 户 将 出 现在 用 户 列表 | 之 


中 , 单 击 任意 一 个 用 户 名 即 可 查看 该 用 户 的 详细 信息 和 权 “| “eo 

限 ,也 可 以 修改 用 户 信息 。 勾 选用 户 并 在 界面 右上 角 单 击 | ses 
[aosee ] 按 钮 可 以 将 该 用 户 删 除 。 transport_chent 
二 汪汪 匿名 访问 Cancel 


当 程 序 接收 的 用 户 请 求 中 不 包含 任何 用 户 认 证 信息 图 8.6 添加 新 用 户 并 设置 权限 
时 ,该 请 求 就 会 被 识别 为 匿名 请 求 。 上 默认 情况 下 ,程序 会 拒 
绝 匿 名 请 求 , 并 返回 包含 状态 码 401 的 认证 错误 信息 。 如 果 要 启用 匿名 访问 的 功能 ,需要 在 
Elasticsearch 安装 主 目 录 下 的 config 目录 下 的 配置 文件 elasticsearch. yml 中 添加 如 代码 段 
8. 2 所 示 的 配置 信息 ,这 一 项 配置 相当 于 对 没有 身份 认证 的 部 分 操作 给 予 认可 。 


代码 段 8.2: 通过 elasticsearch.yml 配置 文件 启用 匿名 访问 
pack. security.authc: 
anonymous: 
Usemame: anonymous user 
roles: kibana user, transport client // 指 定 用 户 访问 权限 
authz exosption: true 


其 中 ,username 指定 了 匿名 用 户 的 用 户 名 ,如 果 不 指 定 , 则 默认 用 户 名 为 es_ 
anonymous_useriroles 指定 了 匿名 用 户 的 访问 权限 ,如 果 不 指定 , 则 一 切 匿 名 访问 将 会 被 拒 
绝 并 返回 认证 错误 信息 ;authz_exception 指定 了 当 匿 名 用 户 执行 权限 之 外 的 请 求 时 的 处 理 
策略 (默认 为 true, 此 时 ,如 果 匿 名 用 户 不 具备 当前 操作 所 需 的 权限 ,程序 将 返回 状态 码 403 
并 且 不 会 提示 用 户 进行 身份 认证 ;如 将 该 项 配置 为 false 且 匿 名 用 户 执行 了 权限 之 外 的 操 
作 ,程序 会 返回 状态 码 401, 并 提示 用 户 进行 身份 认证 方 可 执行 操作 )。 
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8.3.3 基于 域 的 用 户 认证 


Security 插件 内 置 了 5 种 称 为 域 的 用 户 身份 认证 服务 ,分 别 为 native ldap 、active_ 
directory、pki 和 file。 下 面 分 别 进行 介绍 。 

。 native: 用 户 信息 存储 在 专门 的 Elasticsearch 索引 中 ,该 域 支 持 以 用 户 名 和 密码 的 
方式 来 验证 用 户 身份 ,如 果 elasticsearch. yml 配置 文件 中 没有 对 该 域 的 其 他 配置 ， 
那么 该 域 默认 可 用 。 
ldap: 通过 使 用 外 部 轻 量 目录 访问 协议 来 验证 用 户 身份 的 域 。 在 此 域 中 ,用 户 可 以 
输入 用 户 名 、 密 码 等 认证 信息 来 进行 身份 验证 。 
active_directory: 通过 使 用 外 部 活动 目录 服务 器 来 验证 用 户 身 份 的 域 。 在 此 域 中 ， 
目 户 可 以 输入 用 户 名 ,密码 等 认证 信息 来 进行 身份 验证 。 
pki: 通过 使 用 公 钥 基础 设施 来 验证 用 户 身份 的 域 。 这 样 的 域 可 以 与 SSLVTLS 协 
同 工 作 ,并 通过 客户 端的 x. 509 证 书 的 标识 名 来 识别 用 户 。 
file: 用 户 信息 存储 在 Elasticsearch 集群 每 个 节点 的 文件 中 。 该 域 支持 以 用 户 名 、 密 
码 等 认证 信息 来 进行 身份 验证 。 

除 以 上 5 种 域 之 外 ,Security 插件 还 支持 自 定义 域 。 不 同 的 域 则 通过 elasticsearch. yml 
配置 文件 组 织 在 一 个 域 链 当 中 。 代 码 段 8. 3 展示 了 配置 文件 中 的 配置 信息 。 


mn 


代码 段 8.3: elasticsearch.yml 中 的 域 链 
wpack. security.authc: 


order: 0 # 第 1 个 验证 


order: 1 # 第 2 个 验证 


order: 2 # 第 3 个 验证 


order: 3 # 第 4 个 验证 


Fy 
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order: 4 # 第 5 个 验证 
url: ‘url to adr 
authz exception: true 


在 这 段 配置 信息 中 ,type 表示 域 认 证 的 类 型 ,order 表示 不 同 的 域 认证 的 顺序 ,enabled 
表示 是 否 在 域 链 中 启用 该 域 的 认证 。 列 表 的 顺序 决定 了 访问 域 的 顺序 。 认 证 过 程 中 ， 
Security 逐个 对 链 中 的 域 进行 访问 并 尝试 认证 。 一 旦 某 次 认证 通过 ,那么 用 户 的 操作 就 会 
被 认为 通过 了 身份 认证 ;如 果 当 前 域 未 通过 认证 ,那么 程序 将 访问 下 面 的 域 ,直到 该 段 配 置 
信息 末尾 ;如 果 全 部 域 均 未 通过 认证 ,那么 用 户 操 作 就 会 被 认定 为 身份 认证 失败 ,程序 将 返 
回 包含 状态 码 401 的 认证 错误 信息 。 下 面 以 native 域 用 户 身份 认证 为 例 , 对 域 的 配置 进行 
介绍 。 

在 elasticsearch. yml 配置 文件 的 xpack. security. authc. realms 命名 空间 中 配置 native 
类 型 。 代 码 段 8. 4 展示 的 是 将 native 域 设 为 链 中 首 个 认证 域 的 方法 。 


代码 段 8.4: 配置 native 域 
2pack.security.authc.realms: // 命 名 空间 
realml: 
type: native // 指 定 域 类 型 为 native 
order: 0 // 指 定 认证 顺序 
enabled: true /启用 


配置 完成 后 重启 Elasticsearch, 该 域 配 置 即 生 效 。 在 配置 信息 中 , 除 上 述 的 type、 
order、enabled 属性 外 ,还 有 如 下 3 个 属性 可 供 配置 。 

(1) cache. ttl: 指定 用 户 信息 缓存 的 生命 周期 时 长 。 在 指定 的 时 间 内 ,用 户 的 信息 会 被 
缓存 ,该 项 可 以 通过 使 用 标准 Elasticsearch 时 间 单 位 指定 ,默认 为 20m。 

(2) cache. max. users: 指定 缓存 用 户 信息 的 最 大 数量 ,默认 为 100 000。 

(3) cache. hash. algo: 指定 用 于 缓存 用 户 信息 的 散 列 算法 。 


8.3.4 基于 角色 的 访问 权限 配置 


Security 插件 会 为 每 一 个 用 户 ( 包 括 匿名 用 户 ) 分 配 默 认 的 用 户 角 色 , 用 户 角 色 决 定 了 
用 户 可 以 在 程序 中 执行 的 操作 。Security 插件 内 置 15 种 用 户 角 色 , 分 别 为 superuser、 


kibana_user、kibana_dashboard _only_ user, kibana_ system, logstash _admin 、logstash _ 
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system、machine _ learning _ admin 、machine _ learning _ user、 monitoring _ user, remote _ 

monitoring_agent, reporting_ user, ingest_ user, transport_ client, watcher_admin 和 watcher_ 
user。 这 些 用 户 角色 的 权限 是 固定 的 ,不 能 被 更 改 。 这 些 用 户 角色 的 权限 如 下 : 

。 superuser: 拥有 对 整个 集群 中 所 有 索引 和 数据 的 完全 控制 权限 ,此 外 还 可 以 管理 用 

户 和 角色 ,该 角色 用 户 可 以 扮演 任何 其 他 用 户 角色 。 出 于 该 角色 的 特殊 性 ,将 该 角 


色 分 配给 用 户 时 要 格外 谨慎 。 

。 kibana_user: 拥有 访问 Kibana 的 最 低 权 限 ,能 够 访问 Kibana 中 的 分 片 并 监视 
集群 。 

。 kibana_dashboard_only_user: 拥有 对 Dashboard 界面 只 读 的 权限 ,该 角色 用 户 不 能 
编辑 界面 中 的 内 容 。 

。 kibana_system: 拥有 访问 Kibana 的 各 项 读 写 权限 以 及 对 Elasticsearch 集群 的 监控 
权限 。 


logstash_admin: 拥有 对 Logstash 存储 在 Elasticsearch 中 的 索引 的 各 项 管理 权限 。 
logstash_system: 拥有 向 Elasticsearch 传输 系统 级 数据 的 权限 ,该 角色 用 户 不 能 访 
问 Logstash 索引 中 的 内 容 。 

machine_learning_admin: 拥有 对 Machine Learning 组 件 相关 索引 的 只 读 权 限 。 
machine_learning_user: 拥有 对 Machine Learning 组 件 的 最 小 权限 ,包括 查看 该 组 
件 的 配置 .状态 和 结果 等 数据 的 权限 。 

monitoring_user: 拥有 访问 Monitoring 的 最 小 权限 而 非 Kibana 的 访问 权限 ,能够 
监视 集群 中 的 索引 。 该 角色 的 用 户 应 同时 被 分 配 kibana_user 角色 。 
remote_monitoring_agent: 拥有 从 远程 Monitoring 程序 向 当前 集群 写 人 数据 的 最 
小 权限 。 

reporting_user: 拥有 访问 Reporting 程序 的 特定 权限 而 非 Kibana 的 访问 权限 ,能 够 
访问 Reporting 的 分 片 。 该 角色 用 户 应 同时 被 分 配 kibana_role 角色 和 访问 生成 报 
告 所 需 数据 的 角色 。 

ingest_user: 拥有 对 所 有 index 和 pipeline 配置 的 管理 权限 ,但 不 能 创建 分 片 。 
transport_client: 拥有 从 Java Transport Client 段 访问 集群 的 权限 ,能 够 获取 集群 
节点 中 的 信息 。 该 用 户 角色 在 使 用 Transport Client 时 分 配 。 

watcher_admin: 拥有 向 Watcher 组 件 相关 索引 写 和 数据. 读 取 索 引 历 史 数据 以 及 
运行 监视 器 操作 的 权限 。 

watcher_user: 拥有 对 Watcher 组 件 相 关 索 引 的 只 读 权限 以 及 查看 监视 器 操作 和 状 
态 的 权限 。 

在 Kibana 的 Management 界面 中 , 单 击 页 面 上 方 的 Roles 标签 即 可 查看 系统 中 的 用 户 
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角色 列表 。 单 击 任 意 一 个 用 户 角色 可 以 转 到 详细 信息 页 面 ,包括 用 户 角 色 的 名 称 、 在 集群 中 
的 特权 、 指 定 的 用 户 和 指定 的 分 片 等 信息 。 

在 8.3.1 节 中 ,已 经 添加 过 一 个 名 为 cy 的 transport_client 权限 用 户 ( 图 8. 6), 然 而 用 
户 cy 无 权 对 Monitoring 进行 访问 ,因为 cy 没有 被 授予 monitoring_user 和 kibana_user 角 


色 的 权限 。 下 面 就 以 授权 访问 Monitoring 为 例 进行 说 


明 。 登 录 超级 管理 员 账 户 elastic, 在 Management 程序 er 
中 添加 一 个 新 的 用 户 monitor, 为 其 分 配 monitoring_ | montor 
user 和 kibana_user 两 种 用 户 角色 的 权限 ,使 其 有 权 访 | password 


问 Monitoring 程序 。 
在 用 户 列表 页 面 右上 方 单 击 ESE 按 包 ,在 应 
加 用 户 界 面 中 ,为 新 用 户 起 一 个 名 字 ( 这 里 为 


monitor) ,可 以 设置 用 户 的 密码 \ 全 名 和 电子 邮件 地 址 。 | woe 
在 下 方 的 用 户 角色 选择 部 分 ,为 该 用 户 指 定 monitoring Ee 


_user 和 kibana_user, 如 图 8.7 所 示 。 单 击 国 加 按钮 保 
存 即 可 。 退 出 登录 ,使 用 账号 monitor 登录 到 Kibana， 


mon@mon.mon 


单 击 界面 左 侧 Monitoring 程序 的 导航 按钮 ,会 发 现 该 monitoring_user X || kibana_user 

用 户 可 以 进入 Monitoring 程序 进行 操作 。 单 击 未 授权 本 名 

给 该 用 户 的 其 他 导航 按钮 , 则 界面 会 显示 出 拒绝 访问 

的 信息 。 图 8.7 向 新 用 户 授予 Monitoring 
在 为 用 户 分 配角 色 的 基础 上 ,也 可 以 创建 新 的 用 程序 访问 权限 


户 角色 ,以 便 将 特定 的 权限 授予 用 户 。 这 里 仍 以 授权 
访问 Monitoring 为 例 , 创 建 一 个 单独 的 用 户 身 份 。 

首先 登录 超级 管理 员 账 户 elastic, 创 建 一 个 新 的 用 户 角色 ,在 角色 列表 页 面 右 上 方 单 击 
2 按钮 ,可 以 添加 一 个 新 的 自 定义 用 户 角色 ,例如 , 设 定 用 户 名 为 monitor_admin, 其 
拥有 monitor 集群 特权 ,下 方 指定 了 该 用 户 角色 能 够 访问 的 索引 以 及 对 数据 执行 的 操作 方 
式 , 如 图 8.8 所 示 。 其 中 ,索引 指定 了 . monitoring-es- * 、. monitoring- * 和 . kibana * ,对 数 
据 的 访问 特权 包括 manage、 read、index 和 delete, 实 际 上 这 些 正 是 monitoring_user 和 
kibana_user 两 种 用 户 角色 权限 的 并 集 。 单 击 国 时 按钮 保存 该 用 户 角 色 。 

转 到 用 户 管理 列表 页 面 , 单 击 用 户 monitor 的 用 户 名 ,将 其 用 户 角色 改 为 自 定义 的 
monitor_admin, 单 击 图 轩 按钮 保存 用 户 设置 。 退 出 当前 账号 ,使 用 monitor 账号 登录 后 , 单 
击 界面 左 侧 的 导航 按钮 Monitoring 即 可 再 次 访问 Monitoring, 这 一 次 的 用 户 权限 与 上 文中 
设置 的 相同 。 
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New Role 
Name 
monttor_admin 
Cluster privileges 
Da 
monnor 
口 manage 
口 manage securty 
DD manage_index templates 
Dmanage_plpeline 
Dmanage_Iingest_plpelines 
Dransport chent 
口 manage_ml 
口 monltor_ml 
口 manage watcher 
口 monitor-watcher 
Run As Privileges 
| Add a user, 
Index Privileges 
Indices 
Lamontoringes* * | meniorng x | Mbana* 天 


Granted Documents Query Dprional 


E ce 


PrMleges 
manage * | read * | index 和 | delele * 


Granted Flelds opulonal 


图 8.8 添加 拥有 Monitoring 程序 访问 权限 的 独立 用 户 角色 


8.3.5 IP 地 址 过 滤 


Security 插件 的 另 一 项 安全 功能 是 限制 访问 的 IP 地 址 (包括 节点 或 TransportClient 以 
及 正在 连接 到 集群 中 的 节点 等 ) ,能 够 被 过 滤 的 还 有 主机 、 域 名 和 子 网 等 。 当 某 个 节点 的 IP 
地 址 被 加 入 黑 名 单 中 ,该 节点 到 Elasticsearch 的 连接 仍 会 被 允许 ,但 连接 后 立刻 就 会 被 切 
断 , 其 发 出 的 请 求 也 不 会 被 执行 。IP 地 址 过 滤 功 能 可 以 在 elasticsearch. yml 配置 文件 中 添 
加 允许 访问 和 拒绝 访问 的 IP 地 址 ,这 两 种 设置 项 分 别 为 xpack. security. transport. filter. 
allow 和 xpack. security. transport. filter. deny, 配 置 完 成 后 重启 Elasticsearch 即 可 。 


将 程序 对 公 网 开放 。 


Eh Elasticsearch 并 不 是 为 公 网 的 访问 而 设计 的 ,Security 插件 中 拥有 IP 地 址 过 
滤 和 其 他 安全 机 制 , 不 代表 其 能 抵御 来 自 公 网 的 安全 风险 。Elastic 公司 建议 用 户 不 要 


代码 段 8. 5 实现 了 对 特定 的 两 个 IP 地址 的 过 滤 。 


代码 段 8.5: 对 特定 王 地 址 进行 过 滤 
zpack.security.transport..filter.allow: "192.168.0.1" 
zpack.security.transport..filter.deny: "192.168.0.0/24" 
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在 配置 中 可 以 使 用 关键 字 _all 来 指出 明确 指定 的 IP 之 外 的 其 余 所 有 IP 地 址 。 代 码 
段 8. 6 实现 了 允许 一 组 IP 地 址 访问 ,并 拒绝 其 他 所 有 IP 地 址 访问 的 配置 。 


代码 段 8.6: 允许 一 组 下 地 址 访问 ,拒绝 其 余 下 地 址 访问 

xpack. security. transport. filter.allow: [ "192.168.0.1", "192.168.0.2", "192.168.0.3", " 
192.168.0.4" ] 

spack. security. transport. filter. deny: _all 


配置 中 还 支持 IPv6 的 地 址 格式 ,如 代码 段 8.7 所 示 。 


代码 段 8.7: 对 IPv6 地 址 进行 过 滤 

xpack. security.transport. filter.allow: "2001:0db8:1234::/48" 

xpack. security. transport. filter. deny: "1234:0db8:85a3:0000:0000:8a2e:0370 : 
7334" 


IPv6 地 址 长 度 4 倍 于 IPv4 地 址 长 度 ,表达 的 复杂 程度 也 高 于 IPv4 地 址 。 
IPv6 地 址 的 基本 表达 方式 是 久 :X:X:X:X:X:X:X, 其 中 X 是 一 个 4 位 十 六 进 制 整 
数 ,每 个 地 址 包括 8 个 整数 。 某 些 IPv6 地 址 中 可 能 包含 一 长 事 的 0, 此 时 允许 省 略 这 一 


长 串 的 0。 例 如 ,地 址 2000:0:0:0:0:0:0:1 可 以 表示 为 2000::1,0:0:0:0:0:0:10.0.0.1 
可 以 表示 为 ::10.0.0.1。:: 等 同 于 IPv4 的 0.0.0.0( 全 0), 而 ::1 则 等 同 于 127.0.0.1 
(本 机 地 址 ) 。 


当 DNS 功能 可 用 时 ,可 以 指定 主机 名 来 进行 IP 地 址 过 滤 , 如 代码 段 8. 8 所 示 。 


代码 段 8.8: 对 主机 名 进行 王 地 址 过 滤 
pack.security.transport.filter.allow: localhost 
xpack.security.transport.filter.deny: '* .google.com' 


在 某 些 情况 下 ,禁用 IP 地 址 过 滤 功 能 可 以 小 幅 提 升 系统 性 能 。 禁 用 IP 地 址 过 滤 也 是 
在 elasticsearch. yml 配置 文件 中 配置 的 。 例 如 ,如 果 要 禁用 Transport 协议 的 IP 地 址 过 滤 
而 启用 HTTP 的 IP 地 址 过 滤 , 那 么 按照 代码 段 8. 9 所 示 的 配置 信息 完成 配置 即 可 。 


代码 段 8.9: 启用 或 禁用 下 地 址 过 滤 
zpack.security.transport..filter.enabled: false 
zpack.security.http.filter.enabled: true 
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当 运 行 在 云 主 机 这 样 高 动态 IP 地 址 的 环境 时 ,进行 以 上 配置 时 可 能 很 难 了 解 具体 要 过 
滤 的 IP 地址 。 这 时 可 以 使 用 Cluster Update API 对 正在 运行 的 集群 更 新 配置 ,而 不 必修 改 
配置 文件 并 重启 节点 。 代 码 段 8. 10 使 用 curl 实现 了 对 IP 地 址 过 滤 配 置 的 动态 更 新 。 


代码 段 8.10: 动态 更 新 王 地 址 过 滤 配 置 
curl - H 'Content- Type: application/json' - XPUT localhost:9200/_cluster/ 
settings -d "{ 
"persistent" : { 
"pack. security.transport.filter.allow" : "172.16.0.0/24" 
} 
让 


类 似 地 ,对 IP 地 址 过 滤 功 能 的 禁用 也 可 以 动态 执行 ,如 代码 段 8. 11 所 示 。 


代码 段 8.11: 动态 禁用 王 地 址 过 滤 
curl - H 'Content- Type: application/json' - XEUT localhost:9200/_cluster/ 
settings -d '{ 
"persistent" : { 
"pack. security.transport..filter.enabled" : false 


8.3.6 带 有 身份 认证 的 TransportClient 


在 Java API 方面 ,Security 插件 含有 对 TransportClient 类 的 安全 性 支持 ,能 创建 与 
Elasticsearch 的 安全 连接 。 要 实现 这 样 的 安全 连接 ,需要 具备 两 个 前 提 条 件 : 

(1) 拥有 一 个 带 有 transport_client 用 户 角 色 的 Kibana 用 户 。 

(2) 在 开发 平台 的 库 中 添加 X-Pack 插件 的 全 部 依赖 JAR 包 ( 位 于 Elasticsearch 安装 
主 目录 下 的 plugins/x-pack 目录 中 )、 TransportClient 的 依赖 JAR 包 和 XPackClient 的 依 
赖 JAR 包 。 

在 用 户 角色 列表 中 单 击 transport_client, 在 其 详细 信息 中 可 以 发 现 ,该 用 户 角色 对 索引 
和 访问 特权 的 设置 都 是 空 的 ,这 将 导致 分 配 了 该 角色 的 用 户 在 执行 查询 时 没有 足够 的 访问 
权限 。 如 果 Java 程序 在 用 户 认证 信息 中 指定 的 权限 不 足 , 在 执行 时 将 会 报错 。 要 拥有 足以 
执行 查询 角色 的 用 户 , 可 以 登录 超级 管理 员 账 号 elastic, 在 用 户 角色 列表 中 添加 一 个 新 的 用 
户 角色 ,这 里 设 定 用 户 名 为 transport_admin ,在 集群 特权 中 勾 选 monitor 和 manage, 在 界面 
下 方 的 索引 中 指定 * (代表 任何 索引 ) , 右 侧 的 特权 指定 all( 代 表 全 部 特权 )。 设 置 完成 后 单 
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击 国 轩 按 钮 保存 用 户 角 色 。 转 到 用 户 列表 中 ,将 用 户 的 用 户 角 色 transport_client 移 除 , 添 
加 刚 创建 的 transport_admin 即 可 。 

对 于 XPackClient 依赖 ,可 以 像 4. 1. 1 节 使 用 TransportClient 时 使 用 Maven 导入 依赖 
那样 ,在 pom. xml 配置 文件 中 添加 配置 ,如 代码 段 8. 12 所 示 。 


代码 段 8.12: 使 用 Maven 获取 XxPackClient 依赖 
<project …> 
< repositories> 
< 上 - 添加 Elasticsearch 库 --> 
< repository> 
< id> elasticsearch- releases< /id> 
<url> https://artifacts.elastic.co/mavenc /url> 
< 上 -- 指定 镜像 的 网 络 地 址 为 Elastic 官 网 --> 
< releases> 
< enabled> true< /enabled> 
< /releases> 
< snapshots> 
< enabled> false< /enabled> 
< /snapshots> 
< /repository> 


< /repositories> 


< dependencies> 
<!-- 添加 x-Pack 依 赖 BR 包 --> 
< dependency> 
< qroupId> org.elasticsearch.client< /groupId> <!-- pom-xml 中 要 添加 的 配置 信息 --> 
< artifactId> x- pack- transport< /artifactId> < 上 -- 依赖 ZBR 包 名 称 --> 
< version> 6.2.4< /version> < 上 - 此 处 的 版 本 应 与 区 Pack 一 致 --> 
< /dependency> 


< /dependencies> 


< /project> 


除 此 之 外 ,也 可 以 通过 访问 Elastic 官网 直接 获取 依赖 JAR 包 , 然 后 导入 开发 平台 的 
library 中 。 获 取 依 赖 JAR 包 资 源 链 接 为 https://artifacts. elastic. co/maven/org/ elasticsearch/ 
client/ x-pack-transport/6. 2. 4/x-pack-transport-6. 2. 4. jar( 其 中 ,6. 2. 4 是 X-Pack 对 应 的 
版 本 号 ,读者 应 根据 实际 情况 修改 这 两 个 版 本 号 ) 即 可 直接 获取 依赖 JAR 包 。 
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带 有 X-Pack 的 TransportClient 程序 的 写法 与 第 4 章 ( 如 代码 段 4. 2) 介 绍 的 方法 略 有 不 
同 。 首 先 ,初始 化 Client 的 类 由 PreBuiltTransportClient 变 为 PreBuiltXPackTransportClient 。 
其 次 ,初始 化 过 程 中 传人 的 Settings 类 型 参数 不 再 为 空 ,而 是 指定 了 身份 认证 的 相关 信息 。 
代码 段 8. 13 实现 了 经 过 身份 认证 的 TransportClient 访问 Elasticsearch 索引 文件 并 查询 文 
档 数据 的 功能 。 其 中 ,cluster. name 后 面 的 参数 为 集群 的 名 称 ; xpack. security. user 后 面 的 
参数 为 Security 插件 中 指定 的 具有 访问 TransportClient 权限 的 用 户 名 和 密码 ,书写 格式 为 
“用 户 名 :密码 ”。 


代码 段 8.13: 使 用 带 有 身份 认证 的 Transportclient 查询 文档 数据 
import org.elasticsearch.xpack.client.PreBuiltXPackTransportClient; 
/| 其 他 import 语 句 , 略 
Public class ClientTest { 
Private static final Logger logger= (Logger) LogManager. getLogger (ClientTest. 


class) 
public static void main (String [ ] args) throws IOException, ExecutionException, 
InterruptedException{ 
TransportClient client= new PreBuiltXPackTransportClient (Settings. builder() 
.put("cluster.name", "cyElasticsearch") // 指 定 集 群 名 称 
.put ("xpack. security. user", "cy:123456") // 指 定 拥 有 访问 权限 的 用 户 
.build() ) 
.addTransportAddress( 
new InetSocketTransportaddress ( InetAddress. getByName ( " localhost"), 
9300)); 


QueryBuilder gqb= matchAllQuery(); 
SearchResponse response= client. prepareSearch ("it- home") 

.SetTypes("_doc") 
. SetSearchType (SearchType. DFS QUERY THEN FETCH) 
. SetQuery ( qb) 
.3etFrom(0) 
.SetSize(10) 
. SetExplain(true) 
“get() 7 

SearchHit[ ] hits= response. getHits() .getHits() 

for (SearchHit hit : hits) { 
System. out .println (hit. getSourceAsString() ) > 

} 

client.close(); 
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2 
在 上 面 代码 中 ,认证 信息 是 以 明文 形式 传输 的 。 如 果 要 进行 更 高 加 密级 别 的 
传输 ,可 以 使 用 SSL 加 密 等 其 他 形式 的 配置 , 详 见 Elastic 官网 有 关内 容 的 介绍 。 


8.3.7 带 有 身份 认证 的 RESTful 命令 


由 于 Security 插件 安全 性 的 作用 ,之 前 在 终端 中 使 用 的 curl 命令 不 再 直接 执行 ,没有 
身份 认证 信息 的 命令 将 直接 被 拒绝 。 要 使 用 curl 执行 带 有 身份 认证 的 命令 ,需要 在 命令 中 
加 入 -u 参数 或 --user 参数 (注意 ,后 面 这 个 参数 以 两 个 横 线 开头 ), 后 面 跟 * 用 户 名 :密码 " 格 
式 的 身份 认证 信息 。 代 码 段 8. 14 演示 了 添加 新 索引 文件 idx 的 命令 。 


代码 段 8.14: 使 用 带 有 身份 认证 的 curl 命令 
curl -H 'Content- Type: application/json' - -User cy:123456 - XEFUT 'localhost:9200/idx' 


84 使 用 Monitoring 监 榨 系 统 运 行 状态 


X-Pack 中 的 Monitoring 组 件 能 够 完成 在 Kibana 中 对 Elasticsearch 执行 监控 的 任务 。 
通过 Monitoring 可 以 查看 集群 健康 度 和 实时 性 能 ,并 对 集群 .索引 和 节点 的 各 项 指标 进行 
分 析 。 此 外 ,Kibana 自身 性 能 也 可 以 通过 Monitoring 来 监控 。 从 X-Pack 被 安装 到 集群 之 
时 起 ,Monitoring 即 运行 在 每 一 个 节点 上 并 开始 在 Elasticsearch 中 收集 数据 。 在 Kibana 
中 安装 X-Pack 之 后 ,监控 数据 可 以 通过 一 组 定制 仪表 板 来 查看 。 本 节 对 Monitoring 插件 
的 使 用 和 配置 进行 介绍 。 


8.4.1 系统 运行 状态 监控 


使 用 拥有 Monitoring 访问 权限 的 用 户 ( 如 超级 管理 员 用 户 elastic 或 8. 3 节 中 创建 的 
monitor 等 ) 登 录 Kibana , 单 击 左 侧 导 航 栏 中 的 Monitoring 导航 按钮 访问 Monitoring 界面 。 
Monitoring 的 初始 界面 包含 两 个 仪表 板 , 分 别 用 于 显示 Elasticsearch 和 Kibana 的 各 项 运 
行 指标 ,如 图 8.9 所 示 。 

在 这 两 个 仪表 板 上 方 均 有 对 应 的 状态 标志 。 在 Elasticsearch 节点 数 不 足以 分 配 所 有 
分 片 时 ,其 状态 会 显示 为 黄色 的 圆 点 ; 当 集 群 中 所 有 分 片 分 配 完毕 时 ,其 状态 即 变 为 绿色 的 
圆 点 。 

在 Elasticsearch 面板 中 单 击 Overview 链接 ,可 以 查看 Elasticsearch 中 的 全 部 性 能 指 
标 ,如 图 8. 10 所 示 。 界 面 上 方 列 出 了 集群 中 的 节点 数 、 索 引 数 .占用 内 存 大 小 ,总 分 片 数 量 、 
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芒 Elasticsearch 。 Heathsyelow 


Overview Nodes: 1 Indices: 14 

Version 624 Disk Avallable 。 72.50% Documents 22.732 
41GB/56GB 

Uptime 10 minutes DiskUsage 33MB 

JvM Heap 43.83% 

Jobs 9 434MB/ Primery 38 

991MB Shards 
Replica Shards 0 


医 Kibana ® Heatthisgreen 


Overview Instances: 1 
Requests 1 Connectlons 12 
Max Response Time 83ms Memory Usage 15.26% 


218MB/1GB 


图 8.9 ”Elasticsearch 和 Kibana 运行 指标 数据 


未 分 配 分 片 数 ,存储 文档 数量 数据 存储 大 小 、 更 新 次 数 和 版 本 号 等 。 界 面 中 部 绘制 了 4 种 折 
线 统计 图 ,分 别 为 系统 中 的 搜索 和 索引 速率 (每 秒 ) ,搜索 和 索引 延迟 (每 毫秒 ) 的 实时 统计 。 
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21:22 21:24 2126 21:28 21:30 21:32 21:34 21:36 21:22 21:24 21:26 21:28 21:30 21:32 21:34 21:36 
®@ Total Shards 4/s ®@ Search Latency 1.53 ms 
Indexing Rate (/s) @ Indexing Latency (ms) @ 
1 08ms 
105A | 
10/s 
04ms 
95/s 
9/s 02ms 
85A5 oms 
21:22 21:24 21:26 21:28 21:30 21:32 21:34 21:36 21:22 21:24 21:26 21:28 21:30 21:32 21:34 21:36 
®@ Total Shards 8.7/s ® Primary Shards 8.7/s ®@ Indexing Latency 0.21 ms 


图 8. 10 ”Elasticsearch 集群 概况 
单 击 界面 上 方 的 Indices 标签 ,可 以 转 到 所 有 已 存储 索引 文件 的 列表 页 面 ,列表 中 还 包 
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含 了 每 个 索引 文件 中 存储 的 文档 数 .数据 存储 量 大 小 .索引 速率 、 搜 索 速率 和 未 分 配 分 片 数 
等 信息 ,如 图 8. 11 所 示 。 


Name Status | Document Count Data Index Rate Search Rate Unassigned Shards 
ifeng velow 942 47MB 0/s 0 5 
information 全 Yelow 5 232KB 0/s 0/s 5 
tthome @velow  s00 58MB 0/s 0/s 5 
mywelbo3 @velow 3 138KB 0/s 0/s 5 
welbo @velow 3 15.4KB 0/s Ois 5 
welbo2 @velow 0 13KB 0/s O04s 5 


图 8.11 索引 文件 列表 


单 击 任意 一 个 索引 文件 ,可 以 查看 该 索引 文件 在 一 定时 间 范 围 内 的 6 项 指标 ,如 图 8. 12 


所 示 。 
Totak 5.8 MB Primarles:5.8MB Documents:800 TotalShards:10 Unasslgned Shards:5 Health: @ Yellow 
Index Memory (KB) @ Disk (MB) @ 
781KB 58MB 
586kB 上 ed | 
58MB 
391KB 
58MB 
195KB SD 
OO Dc me bo ooo een 58MB 
2040 20:50 21:00 21:10 21:20 21:30 2040 20:50 21:00 21:10 21:20 21:30 


LuceneTotal 698KB@ Terms 523KB = @pPoints107.08 = ® Store 58MB 


tore (Primarles) 5.8 MB 


Search Rate (/s) @ Indexing Rate (/s) @ 
025 1 
O15 05/s 
O41 0 一 一: 
0054 05/s 
7 1 
20:40 ”2050 ”2100 ”2110 ”2120 “2130 ji040 20:50 21:00 21:10 21:20 21:30 
® Total Shards 0/s ® TotalShards 05  ® Primary Shards 0/s 
Segment Count 0 Document Count @ 
17.02 800 
1701 
800 
1701 


Ta 一 一 


ao 一 一 一 一 -. 


17 


800 
1699 
1699 800 

2040 20:50 21:00 21:10 21:20 21:30 20:40 20:50 21:00 21:10 21:20 2130 
® Primaries 17 ® Total 17 ® Document Count 800 


8.12 索引 文件 中 的 6 项 指标 
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返回 Elasticsearch 运行 状态 监控 页 面 ,在 界面 上 方 单 击 Nodes 标签 ,可 以 查看 已 开启 
的 节点 占用 系统 资源 的 情况 与 趋势 ,相应 指标 有 CPU 使 用 率 .平均 负载 .Java 虚拟 机 内 存 、 
磁盘 可 用 空间 和 分 片 分 配 数量 等 ,如 图 8. 13 所 示 。 图 8. 13 中 左 侧 的 Master 为 节点 名 称 
( 它 是 之 前 在 elasticsearch. yml 中 配置 好 的 ) ,节点 名 称 下 方 显 示 系 统 分 配 的 端口 地 址 。 在 
中 间 每 一 项 数据 旁边 都 标 有 其 最 大 值 和 最 小 值 。 


Namet Status CPU Usage Load Average JVM Memory Disk Free Space Shards 
友 Master @onine 1 % qo 0.45 人 To 人 49 %t2s 40.7 GBS 38 
图 8.13 索引 文件 的 指标 


单 击 任意 一 个 节点 的 名 称 , 可 以 查看 该 节点 的 6 项 指标 的 实时 统计 数据 ,包括 延迟 
(ms) Java 虚拟 机 堆 大 小 (GB) .索引 内 存 (MB) 、CPU 使 用 率 、 系 统 负载 和 平均 分 片 数量 等 。 
同时 ,界面 上 方 多 了 当前 节点 所 占 端口 和 节点 类 型 ( 即 主 节点 或 从 节点 ) 两 项 信息 ,如 图 8. 14 
所 示 。 


127.0.0.1:9300 JVM Heap: 41% FreeDIskSpace:40.7GB Documents:25.7k Data:36.6MB Indices:14 
Shards: 38 Type: Master Node Health: @ Online 
JVM Heap (MB) @ Index Memory (KB) @ 
11GB 585.9KB 
CC i 4883KB 
762.9MB pease 
SAAN A 
pd 195.3 KB 
381.5MB 977KB 
1907MB 0 
21:20 21:22 21:24 21:26 21:28 21:30 21:32 21:34 21:20 21:22 21:24 21:26 21:28 21:30 21:32 21:34 
® Max Heap 990.8 MB ® Used Heap 245.4 MB ® Lucene Total 401.9K® Terms 2735KB = ® Polnts 69KB 
CPU Utilization (%) ee System Load @ 
10% 15 
8% 
1 
5% 
a4% 襄 
2% 
0% 0 
21:20 2122 21:24 21:26 21:28 2130 21:32 2134 2120 21:22 21:24 21:26 21:28 21:30 21:32 2134 
全 CPU Utillzation 1% @ Im 105 
Latency (ms) @ Segment Count @ 
Sms - 105 
4ms 100 
3ms - 
90 
2ms 着 
1ms 80 
oms 7 
21:20 21:22 21:24 21:26 21:28 21:30 21:32 2134 21:20 21:22 21:24 21:26 21:28 21:30 21:32 21:34 
@ Search 1.37 ms ® Indexing 0.17 ms ®@ Segment Count 88 


图 8.14 节点 的 6 项 指标 
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与 Elasticsearch 的 监控 数据 相似 ,Kibana 同样 以 折线 统计 图 的 形式 来 监控 运行 状态 。 
返回 Monitoring 程序 主 界面 ,在 Kibana 面板 中 单 击 Overvievw 链接 , 即 可 查看 Kibana 的 各 
项 性 能 指标 ,包括 运行 实例 数量 、 收 到 请 求 数 、 链 接 数 、 最 大 响应 时 间 以 及 内 存 占用 量 等 。 界 
面 中 部 显示 两 种 折线 统计 图 ,分 别 为 客户 端 请 求 数量 和 客户 端 响应 时 间 ,如 图 8. 15 所 示 。 


Instances:1 Memory: 193MB /1GB Requests:1 Connections:6 ”Max. Response Time: 132 ms 


Health: @ Green 

Client Requests @ Client Response Time (ms) @ 
25 250ms 

20 200ms 

5 150ms 

10 100ms 

5 50n 

0 oms 

1402 14:04 14:06 14:08 14:10 14:12 14:14 1402 1404 14:06 14:08 14:10 14:12 14:14 

全 ClentRequests 1 本 Max 48ms ®@ Average 48 ms 


图 8.15 ”Kibana 运行 概况 


在 界面 上 方 单 击 Instances 链接 ,可 以 查看 Kibana 运行 实例 的 有 关 数 据 , 包 括 运行 状 
态 .内 存 占用 大 小 ,平均 负载 .请 求 数 .平均 响应 时 间 和 最 长 响应 时 间 等 ,如 图 8. 16 所 示 。 


Namel Status Load Average Memory Size Requests Response Times 


YNS3SN @Green 0.39 195.00 MB 6 mas 


图 8. 16 ”Kibana 运行 实例 数据 


单 击 左 侧 名 称 ( 如 此 例 中 的 cy-N53SN) ,可 以 查看 该 实例 相关 的 6 项 指标 ,分 别 为 客户 
端 请 求 、 客 户 端 响应 时 间 (ms)、HTTP 连接 数 、 占 用 内 存 大 小 (GB)、 系 统 负载 和 事件 循环 延 
述 (ms) ,如 图 8. 17 所 示 。 界 面 上 方 还 显示 了 当前 实例 所 占 的 端口 .操作 系统 可 分 配 内 存 大 
小 和 当前 程序 版 本 。 


8.4.2 配置 Monitoring 


在 默认 使 用 条 件 下 ,Monitoring 程序 将 每 隔 10s 从 全 部 索引 文件 中 收集 数据 并 存储 在 
本 地 。 实 际 使 用 过 程 中 ,可 以 对 Monitoring 程序 进行 配置 ,指定 要 监控 的 特定 索引 文件 ,向 
其 他 独立 的 集群 导出 数据 ,以 及 配置 专门 存储 数据 的 索引 文件 等 。 其 他 配置 还 包括 可 以 指 
定 程 序 多 长 时 间 收 集 一 次 数据 .配置 超时 时 间 限 制 . 设 置 本 地 存储 数据 的 保留 期 限 等 。 这 些 
配置 均 需 要 通过 在 elasticsearch. yml 中 添加 配置 信息 来 完成 。 下 面 对 部 分 配置 进行 说 明 。 

。 xpack. monitoring. collection. cluster. state. timeout: 指定 收集 集群 状态 信息 的 超时 


时 长 ,默认 为 10min。 
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localhost:5601 OSfFree Memory:9.0GB Version:6.2.4 Uptime:40 minutes Health: @ Green 
Client Requests @ Client Response Time (ms) @ 
25 一 一 一 一 一 一 一 一 - 250ms 一 一 一 
20 200 ms 
15 150ms 
10 + 100ms 
5 Soms 
om 
14:02 1404 14:06 1408 14:10 1412 1414 14:02 14:04 14;06 14:08 14:10 14:12 14:14 
® ClentRequests 1 ® Max 65ms @ Average 65 ms 
Memory Size (GB) @ HTTP Connections @ 
19G8 9 
8 
14GB 
7 
9537 MB 6 
5 
476.8 MB 
4 
3 
14:02 14:04 14:06 14:08 14:10 14:12 14:14 1402 14:04 14:06 14:08 14:10 14:12 1414 
® Heap Size Lmit 14 GB Memory Stze 193.5 MB @ HTTP Connections 6 
System Load @ Event Loop Delay (ms) @ 
05 80ms 
60ms 
04 
40ms 
02 
20ms 
Om 
14:02 14:04 14:06 14:08 14:10 14:12 14:14 14:02 14:04 14:06 14:08 14:10 14:12 14:14 
® Im 024 ® Sm 022 ® 15m 021 ® Event Loop Delay 131 ms 


图 8.17 Kibana 运行 实例 6 项 指标 


xpack. monitoring. collection. cluster. stats. timeout: 指定 收集 集群 统计 信息 的 超时 
时 长 ,默认 为 10min。 

xpack. monitoring. collection. indices: 指定 程序 收集 的 数据 存储 在 哪些 索引 文件 
中 ,默认 为 全 部 索引 文件 。 指 定 索引 文件 时 需要 将 不 同 索引 文件 名 以 逗号 隔 开 (如 
“testl ,test2,test3”) ,可 以 在 书写 索引 文件 名 时 使 用 通配符 * (如 logstash-* ) ,也 
可 以 使 用 十 号 或 一 号 来 保留 或 排除 索引 文件 (如 十 testx* 、 一 test3) 。 

xpack. monitoring. collection. index. stats. timeout: 指定 收集 索引 文件 统计 数据 的 
超时 时 长 ,默认 为 10min。 

xpack. monitoring. collection. indices. stats. timeout: 指定 收集 全 部 索引 文件 统计 数 
据 的 超时 时 长 ,默认 为 10min 。 

xpack. monitoring. collection. interval: 指定 程序 收集 数据 样本 的 时 间 间 隔 , 默 认为 
10s。 如 果 修 改 了 该 设置 项 , 则 需要 同时 在 kibana. yml 中 添加 配置 项 xpack. 
monitoring. min_interval_seconds, 并 将 该 项 的 值 设置 为 与 elasticsearch. yml 中 相 
同 的 值 ( 设 为 一 1 表示 临时 禁用 收集 数据 的 功能 ) 。 
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。 xpack. monitoring. history. duration: 设置 程序 保存 数据 的 索引 文件 的 保留 期 限 , 超 
过 期 限 的 索引 文件 将 被 自动 删除 ,默认 为 7d。 该 设置 项 被 限定 最 小 值 为 1d, 以 保证 
监控 的 有 效 性 。 该 项 不 能 被 禁用 。 


8.4.3 搭建 独立 的 Monitoring 集群 


X-Pack 支持 远程 Monitoring 端 连 接 和 存储 数据 。 要 在 独立 的 Monitoring 集群 中 存储 
数据 ,首先 需要 在 独立 的 集群 中 安装 相同 版 本 的 Elasticsearch 和 Kibana, 并 为 集群 中 的 每 
个 节点 安装 对 应 版 本 的 X-Pack。 接 下 来 ,在 Monitoring 集群 中 创建 一 个 remote_monitor_ 
user 角色 的 用 户 ( 例 如 设 定 用 户 名 为 remote_ monitor), 并 保证 Kibana 实例 连接 到 
Monitoring 集群 上 。 

Monitoring 程序 使 用 HTTP Exporter 来 将 数据 指标 传输 到 Monitoring 集群 。 这 样 的 
配置 需要 在 提供 数据 的 集群 中 的 elasticsearch. yml 配置 文件 中 添加 相应 的 配置 信息 (如 代 
码 段 8. 15 所 示 )。 添 加 配置 后 ,需要 重启 Elasticsearch 。 


代码 段 8.15: 配置 提供 数据 集群 的 HITP Exporter 
xpack.monitoring.exporters: 
idl: # 定 义 远程 Eqporter 名 称 
type: http # 指 定 传输 方式 为 HTTP 
host: ["http://es- mon- 1:9200", "http://es- mon?2:9200"] # 指 定 主机 列表 
auth.usemame: rempte monitor # 指 定 具有 该 权限 的 用 户 
auth.password: rempte # 指 定 用 户 的 密码 


接 下 来 要 为 Monitoring 集群 的 Kibana 配置 集群 的 连接 信息 。 首 先 在 提供 数据 的 集群 
中 创建 一 个 拥有 Kibana 访问 权限 的 用 户 ( 即 同时 拥有 kibana_user 和 monitoring_user 两 种 
角色 的 用 户 , 例 如 设 定 用 户 名 为 kibana_monitor) 。 然 后 在 Monitoring 集群 的 kibana. yml 
配置 文件 中 添加 相应 的 配置 信息 (如 代码 段 8. 16 所 示 )。 添 加 配置 后 ,重新 启动 Kibana。 


代码 段 8.16: 为 Kibana 配置 集群 的 连接 信息 

xpack.monitoring.elasticsearch.url: "http://es- mon- 1:9200" # 指 定 Monitoring 集 群 的 地 址 
zpack.monitoring.elasticsearch.username: "kibana- monitor"” # 指 定 用 户 名 
xpack.monitoring.elasticsearch.password: "kibana" # 指 定 密码 


可 以 在 提供 数据 的 集群 中 的 elasticsearch. yml 配置 文件 中 添加 如 下 配置 信息 来 启用 数 
据 传输 功能 ,配置 示例 如 代码 段 8. 17 所 示 。 
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代码 段 8.17: 启用 Exporter 的 数据 传输 功能 示例 
zpack.monitoring.exporters: 
my local: # 定 义 本 地 Exporter 
type: local 
my_remote: # 定 义 远程 Eporter 
type: http 
host: [ "10.1.2.3", … ] 


connection: # 连 接 相关 参数 
timeout: 6s 
read timeout: 60s 
ssl:… #7LS/SSL 相 关 配 置 参 数 , 略 
Proxy: 
base path: /some/base/path # 为 发 出 的 请 求 添加 路 径 以 协同 proxy 工作 ,可 选 
headers: # 以 键 - 值 对 的 形式 添加 请 求 头 


My- Proxy- Header: abcl23 
My- Other- Thing: [ def456, … ] 
index.name.time formmat: YYYY- MM # 设 置 时 间 格 式 作为 后 组 


85 Alerting 酝 件 与 异常 事件 警报 


在 集群 的 实际 使 用 过 程 中 ,可 能 会 遇 到 数据 的 变动 或 运行 中 的 异常 现象 。 这 就 需要 对 
诸如 磁盘 使 用 情况 等 进行 监控 。 例 如 ,如 果 接 下 来 的 几 天 里 , 某 些 节点 的 磁盘 剩余 空间 即将 
耗 尽 ,那么 系统 会 发 出 警告 ;或 者 在 监控 Elasticsearch 的 过 程 中 ,如 果 某 些 节 点 与 集群 断 开 
连接 ,或 查询 吞吐 量 超出 预期 范围 ,那么 系统 应 向 管理 员 发 出 通知 。 使 用 Alerting 插件 可 完成 
对 上 述 类 似 情况 的 监视 。X-Pack 推出 了 用 来 创建 ,管理 和 测试 监视 器 的 API, 监 视 器 可 被 触发 
并 执行 多 个 预警 通知 操作 。 监 视 器 由 schedual、query、condition 和 actions 模块 构成 。 

。 schedual: 用 于 执行 查询 和 判断 条 件 的 调度 程序 。 

。 query: 作为 condition 的 输入 而 运行 的 查询 。 监 视 器 支持 完整 的 Elasticsearch 查询 

语言 与 聚合 。 
。 condition: 用 于 判断 是 否 运 行 actions 的 条 件 , 这 里 可 以 使 用 简单 查询 条 件 , 也 可 以 
使 用 脚本 来 构建 更 为 复杂 的 查询 条 件 。 

。 actions: 一 个 或 多 个 操作 ,例如 发 送 邮件 、 利 用 webhook 软件 向 第 三 方 系统 推送 数 
据 或 索引 文件 查询 结果 等 。 

监视 器 会 在 Elasticsearch 专门 的 索引 文件 中 记录 下 完整 的 历史 记录 ,其 中 包含 每 次 监 
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视 器 触发 的 时 间 查询 结果 的 记录 ,是 否 符合 条 件 以 及 程序 执行 了 何 种 操作 等 信息 。 本 节 对 
Alerting 插件 通过 RESTful 和 Java 程序 两 种 方式 的 配置 方法 进行 介绍 。 


8.5.1 通过 RESTful 方式 设置 监视 器 


在 通过 RESTful 方式 设置 检索 器 时 ,对 监视 器 的 设置 包括 对 trigger、input、condition、 
transforms 和 actions 5 个 部 分 的 配置 。 其 中 ,trigger 是 每 个 监视 器 中 都 有 的 设置 项 , 仅 有 
schedule trigger 一 种 ,决定 了 监视 器 被 触发 的 时 间 ,例如 每 隔 10s 触发 一 次 ;input 为 监视 器 
载 和 人 监视 系统 有 效 负载 提供 数据 ,分 为 simple、search、http 和 chain 4 种 ,如 对 Elasticsearch 
索引 的 检索 等 ;condition 对 监视 器 的 操作 是 否 执行 进行 控制 ,分 为 always、never、compare、 
array compare 和 script 5 种 ,如 果 不 指定 condition ,那么 默认 设置 为 always;transforms 是 
一 个 可 选项 ,为 监视 器 操作 的 执行 准备 数据 结果 ,分 为 search script 和 chain 3 种 ;actions 
是 指定 当 符合 条 件 时 执行 何 种 操作 ,分 为 email、webhook、index、 logging、 hipchat、 slack、 
pagerduty 和 jira 8 种。 

以 检测 系统 中 的 404 错误 信息 并 报告 给 第 三 方 集群 和 管理 员 为 例 , 代 码 段 8. 18 演示 了 
通过 Kibana 中 的 Dev Tools 向 系统 中 添加 监视 器 来 检测 系统 错误 信息 的 方法 。 


代码 段 8.18: 添加 监视 器 以 检测 系统 的 错误 信息 
EUT _xpack/watcher/watch/l0og errors 
¥ 
"metadata" : { # 为 监视 器 附加 静态 的 元 数据 ,可 选 
ncolorn : "red" 


"interval" : "10s" # 指 定 监视 器 每 10s 触 发 一 次 


"search" : { #input 使 用 search 方 式 
"equest" : { 
nindioes" : "whale", # 指 定 索引 文件 
body" : { 
"size" : 0, 
"auery" : { Mmatch" : { "status code" : "404" } } 
# 指 定 在 status_code 字 段 中 检索 错误 信息 


"oondition" : { #condition 使 用 cmpare 方 式 
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"campare" : { "ctx.payload.hits.total" : { "gt" : 5}} 
# 当 检索 出 5 条 以 上 错误 时 执行 操作 


"transfomm' : { # 符 合 条件 时 为 执行 操作 准备 数据 ,可 选 
"search" : { #transform 使 用 search 方 式 
"Tequest" : { 
mindices" : "whale", # 指 定 索 引文 件 
body" : { 


"query" : { "match" : { "status code" : "404" } } 
# 在 status_ code 字段 中 检索 错误 信息 


} 
] 


"actions" : { 
"ay_ webhook" : { # 将 错误 信息 报告 给 第 三 方 集群 
"webhook" : { # 此 处 使 用 webhook 方 式 


"method™ : "FOST™", 

"host" : 哟 三 方 主机 名 "， 

"port" : 9200, 

"path" : /{{watch iqd}}", 

"body" : "Enoountered {{ctx.payload.hits.total}} errors" 


"email administrator" : { # 将 错误 信息 以 电子 邮件 形式 报告 管理 员 
"email" : { # 此 处 使 用 email 方式 
"ton : "<email>" # 将 < email> 蔡 换 为 管理 员 电 子 邮 件 地 址 


"subject" : "Encountered {{ctx.payload.hits.total}} errors", 
"body"”: "Too many error in the system, see attached data”", 
"attadments" : { 
"attached data" : { 
"data" : { 
"fommat" : "json" 


在 上 面 的 代码 中 ,要 实现 发 送 邮件 的 功能 ,需要 在 elasticsearch. yml 配置 文件 中 配置 收 
发 邮件 双方 的 电子 邮件 账户 信息 ,如 代码 段 8. 19 所 示 。 程 序 运 行 后 ,管理 员 邮 箱 中 将 可 能 
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收 到 来 自 Alerting 插件 的 电子 邮件 ,如 图 8. 18 所 示 。 


代码 段 8.19: 在 elasticsearch.yml 中 配置 电子 邮件 账户 信息 
pack.notification.email .acoount: 
work: 
Profile: qq 
email Gefaults: 
fram:< email> # 将 <email> 蔡 换 为 管理 员 电 子 邮 件 地 址 


Port: 587 
user:< username> # 将 < username> 蔡 换 为 自己 的 邮件 用 户 名 
password:< password> # 将 <password> 替 换 为 自己 的 邮件 密码 

主题 时 间 上 大 小 


404 recently encountered 


Encountered 6 errors - Too many error in the system, see attached data 1 分钟 前 


图 8.18 来 自 Alerting 插件 的 电子 邮件 


通过 代码 段 8. 20 中 的 命令 ,可 以 查看 检测 到 的 相关 错误 的 历史 记录 。 


代码 段 8.20: 查看 检测 到 的 相关 错误 的 历史 记录 
GET .watcher- history* /_search? pretty 
{ 
"query" : { 
这 
mst" : [ 
{ "match" : { "result.oondition.met" : true }}, 
{ "range" : { "result.execution time" : { "to" : "now" }}} 
] 


和 


要 检索 程序 中 的 监视 器 ,可 以 执行 代码 段 8. 21 所 示 的 命令 ,该 命令 检索 程序 中 前 10 个 
监视 器 的 信息 。 
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代码 段 8.21: 检索 前 10 个 监视 器 的 信息 
GET .watches/_search 
{ 

"size" : 100 


} 


要 删除 一 个 监视 器 ,可 以 执行 代码 段 8. 22 所 示 的 命令 。 


代码 段 8.22: 删除 监视 器 
IEIETE xpack/watcher/watch/log errors #10g errors 是 监视 器 的 名 字 


8.5.2 通过 Java 程序 设置 监视 器 


X-Pack 插件 中 提供 了 名 为 WatcherClient 的 Java 类 库 ,添加 了 对 本 地 监视 器 的 支持 。 
8. 3.6 节 已 经 提 到 过 关于 获取 XPackClient 依赖 的 方法 ,在 此 基础 上 使 用 Put Watch API 编 
写 Java 代码 实现 对 监视 器 的 设置 ,使 用 schedule trigger 每 分 钟 触 发 一 次 监视 器 ,使 用 
search input 来 获取 状态 码 为 404 .出 现在 最 近 5min 内 的 信息 ,使 用 condition 判定 是 否 有 
文档 数据 被 检索 到 ,一 旦 发 现 符合 条 件 的 数据 ,action 则 发 送 电子 邮件 给 管理 员 , 如 代码 
段 8. 23 所 示 。 


代码 段 8.23: 编写 Java 程序 来 设置 监视 器 
TransportClient client= new PreBuiltXPackTransportClient (Settings.builder() 
.Put ("cluster.name", "cyElasticsearch") 
.Put ("pack. security.user", "cy:123456") 
:build()) 
.addTransportAcHdress (new InetSocketTransportAddress (Inethddress.getByName ("localhost"), 9300)); 
XPackClient xpackClient= new XPackClient (client); 
WatcherClient watcherClient= xpackClient .watcher () 7 
WatchSourosBui lder watchSouroeBui lder= WatchSouroeBui lders.watchBuilder (); 
// 设 置 触 发 器 
watchSourosBui lder .trigger (TriggerBuilders.schedule (Schedules.cron ("0 0/1 ¥ * * ?3"))); 
/为 input 创 建 检 索 
SearchRequest. request— Regquests.searchRequest ("whale") .source (searchSource () 
-query (boolQuery() 
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“mst matchRuery("status oode", "404")) 
filter (rangeQuery ("timestanp") .gt ("{{ctx.trigger.scheduled time}}")) 
.filter (rangeQuery ("timestanp") .lt ("{{ctx.execution time}}")) 
)); 
// 创 建 检 索 输入 
SearchInput input= new SearchInput (new WatcherSearchTerplateRequest ( 
new String[]{"whale"}, null, SeardhType.TEFADLT, 
WatcherSearchTenrplateRequest. .CEFAULT INDICES OPTTONS, 
new BytesArray (request..souroe() .toString())), mll, mll, mull); 
// 设 置 输入 
watchSourosBui lger .input (input); 
// 设 置 触发 条 件 
watchSourosBui lder .condition (new ScriptCondition (new Script ("ctx.payload.hits.total> 1"))); 
// 为 发 送 电子 邮件 的 操作 创建 邮件 模板 
FmailTenplate.Builder emailBui lder= FmailTenplate.builger (); 
emailpuilger.to("<email>");  // 将 <arail> 替 换 为 具体 的 电子 邮件 地 址 
emailBui lder.subject ("404 recently encountiered"); 
FmailAction.Builder emailActionBuilder= FmailAction.builder (emailBuilger.build()); 
// 创 建 action 
watchSourosBui lger.addAction ("email sameone", emailActionBuilder); 
PutWatchResponse putWat chResponse= wat cherClient .preparePutWatch ("my- watch") 
.3etSource (watchSouroeBuilder) 
‘get (); 
// 程 序 最 后 关闭 客户 端 
Client.close(); 


编写 代码 时 ,使 用 静态 导入 的 builder 可 以 简化 和 压缩 代码 。PutWatchResponse 类 的 
使 用 如 代码 段 8. 24 所 示 。 


代码 段 8.24: 简化 的 PutWatchRespcnse 类 使 用 

PutWatchResponse putWat chResponse2= watcherClient.preparePutWatch ("my— watch") 
.setSource (watchBuilder() 
.trigger(schedunle (cron("0 0/1 * * * 2"))) 
.input (searchInput (new WEtcherSearchRmplatsReqnest (new String[] {"whale"}, 
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WatcherSearchTerplateRequest .IEFAULT INDICES OPTIONS, searchSouroe() 
-query (boolQuery() 
-must natchouery ("status_code", 404)) 
-filter (rangeQuery ("timestanp") .gt ("{{ctx.trigger.scheduled time}}")) 
.filter (rangeQuery ("timestanp") .1t ("{{ctx.execution time}}")) 
) -buildAsBytes ()))) 
.conditicn (oampareCondition ("ctx.payload.hits.total", CarpareCondition.Op.GT, 1L)) 
“addAction ("email somecne"，emailRcticn (EmailTemplate.builder() 


.to("<email>") // 将 <email> 蔡 换 为 具体 的 电子 邮件 地 址 
.Subject("404 recently encountered")))) 
:geE()7 


要 检索 一 个 监视 器 ,可 以 使 用 Get Watch API, 如 代码 段 8. 25 所 示 。 


代码 段 8.25: 检索 一 个 监视 器 

GetWatchResponse getWatchResponse= watcherClient .prepareGetWat ch ("my- watch") .get (); 
XContentSource souroe= getWatchResponse.getSource () 7 

Map< String, Object> map= source.getRsMap ()7 


要 删除 一 个 监视 器 ,可 以 使 用 Delete Watch API, 通 过 监视 器 的 id 将 其 删除 。 删 除 监 
视 器 后 ,索引 文件 . watches 中 有 关 该 监视 器 的 所 有 文档 信息 将 会 消失 ,该 监视 器 将 无 法 再 
执行 ,但 是 该 监视 器 运行 的 历史 记录 将 会 保留 。 代 码 段 8. 26 实现 了 将 id 为 my-watch 的 监 
视 器 删除 的 功能 。 


代码 段 8.26: 删除 一 个 监视 器 
DeleteWatchResponse deleteWatchResponse= watcherClient .prepareDeleteWatch 
("my watch") .get (); 


8.5.3 使 用 Watcher UI 管理 监视 器 


为 方便 管理 监视 器 ,X-Pack 插件 提供 了 可 视 化 的 监视 器 管理 界面 。 进 入 Management 
界面 后 ,在 Elasticsearch 部 分 单 击 Watcher 链接 即 可 跳 转 至 Watcher UI 界面 。 该 界面 直 
观 地 列 出 了 系统 中 所 有 的 监视 器 程序 ,用 户 可 以 查看 各 种 监视 器 的 状态 ,如 图 8. 19 所 示 。 


界面 中 还 提供 了 创建 和 删除 等 管理 功能 ,用 户 可 以 通过 直接 与 该 界面 交互 来 完成 对 监视 器 
的 管理 。 
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Management / Elasticsearch / Watcher 
Watches 


| Q search.. Create new watch ~ | | Delete 1-6of6 《< > 
Dt Name Slate comment lastFred LastTrggered | 
OJcLVAMLRB-.. Xx-Pack Monit. Firing In4 hours a minute ago 
OcLVAMLRB.. x-Pack Monlt. v OK In4 hours a minute ago 
OJcLVAMLRB.. X-Pack Monlt v OK a minute ago 
OJcLVAMLRB.. Xx-Pack Monlt.. w OK a minute ago 
OJcLVAMLRB.. X-Pack Monlt. v OK a few secon-- 
OJCLVAMLRB... X-Pack Monlt. v OK a minute ago 
1-6of6 < >» 


8.19 Watcher UI 界面 


86 “Reporting 与 报告 生成 


X-Pack 插件 为 Kibana 的 可 视 化 提供 了 生成 报告 的 功能 ,报告 中 可 以 包含 Kibana 中 的 
Dashboard、Visualize 等 程序 可 视 化 统计 图 表 和 已 保存 的 检索 。 本 节 对 Reporting 插件 的 使 
用 和 配置 等 进行 介绍 。 


8.6.1 在 程序 中 生成 报告 


要 使 用 Reporting 手动 生成 报告 ,需要 先 以 一 个 拥有 reporting_user 角色 的 用 户 身 份 登 
录 到 Kibana。 此 时 可 以 直接 使 用 elastic 这样 的 超级 管理 员 用 户 , 也 可 以 利用 elastic 用 户 创 
建 一 个 专门 的 新 用 户 ,分 配 reporting_user 角色 、kibana_user 角色 和 访问 生成 报告 所 需 数 
据 的 角色 。 

在 Kibana 中 安装 X-Pack 后 ,对 于 一 些 与 可 视 化 相关 的 程序 (如 Dashboard、Visualize) 
和 已 保存 的 检索 ,在 其 界面 上 方 会 出 现 Reporting 按钮 , 单 击 这 个 按钮 可 以 进行 PDF 文档 
生成 .分 享 链接 生成 等 操作 ,如 图 8. 20 所 示 。 

在 Reporting 面板 中 单 击 Printable PDF 按钮 ,程序 会 将 当前 打开 的 可 视 化 统计 图 表 加 
和 生成 PDF 的 队列 ,其 进度 可 以 在 Management 程序 中 Kibana 部 分 的 Reporting 中 查看 ， 
如 图 8. 21 所 示 。 列 表 中 每 一 行 代表 一 个 任务 。 生 成 完毕 后 , 右 侧 会 出 现下 载 按钮 , 单 击 该 
按钮 即 可 获取 已 生成 的 PDF 文档 。 新 版 X-Pack 提供 了 十 分 便捷 的 操作 方式 ,在 PDF 文档 
生成 操作 完成 时 ,用 户 浏览 的 当前 界面 项 部 会 弹出 通知 条 ,其 中 提供 了 下 载 按 钮 。 
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Dashboard / New Dashboard Fullscreen Share ”Clone Edit Reporing CAutorefresh < QLastis5minutes > 
Reporting © 


® Optimlze PDF for printing 
@ Preserve existing layout In PDF 


Generation URL Copy 
httpJlocalhost5601/apireporting/generatelprintablePdf?jobParams=(browserTimezone:Asia92FShanghaiayout(id:print,objectTyp 


图 8. 20 在 界面 上 方 展开 Reporting 面板 


Management / Kibana 


Index Patterns Saved Objects Reporting Advanced Settings 


Generated reports 


Document Added Status Actions 
New Dashboard 2018-07-01 @ 3:21 PM completed 十 
dashboard elastic 2018-07-01 @ 3:21 PM 
< < 1 > >> 


图 8.21 生成 PDF 文档 


8.6.2 通过 监视 器 自动 生成 报告 


可 以 用 上 文中 提 到 过 的 监视 器 来 自动 生成 报告 。 在 图 8. 20 中 ,Generation URL 处 的 
链接 可 以 用 来 请 求 报告 的 内 容 。 在 以 下 3 种 报告 中 ,链接 的 格式 是 不 同 的 : 
。 Dashboard 程序 报告 中 的 链接 格式 为 /api/reporting/generate/dashboard/ 
dashboard-id> &.sync。 
。 Visualize 程序 报告 中 的 链接 格式 为 /api/reporting/generate/visualization/ 
visualization-id> &.sync, 
。 已 保存 的 检索 报告 中 的 链接 格式 为 /api/reporting/generate/search/ 一 saved-search- 
id 之 & sync。 
其 中 ,所 XXX-id> 指 的 是 各 自 的 object 名 称 。 链 接 中 使 用 参数 _g 来 指定 可 视 化 应 限定 的 
时 间 间 隔 。 下 面 以 每 小 时 生成 检索 的 报告 为 例 , 利 用 监视 器 来 发 送 电子 邮件 给 管理 员 ,如 代 
码 段 8. 27 所 示 。 
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代码 段 8.27: 自动 生成 报告 ,并 发 送 电子 邮件 给 管理 员 
EUT _xpack/watcher/watch/search report 


# 每 隔 二 触发 一 次 


# 指 定 管理 员 的 用 户 名 和 电子 邮件 地 址 
"subject": "Monitoring Report", 


"attachments": { 
"search report.pdf": { # 指 定 输出 文件 名 
"http": { 
"oontent. type": "application/pdf", 
request": { 
"method": "POST 
"headers": { 
"kbn- xsrf": "reporting" 
}, 
"read timeout": "300s", # 设 置 生成 超时 时 长 为 300s 
"url": "http://localhost: 5601/api/reporting/generate/search/whale? _g= (time: 
(from:now- ld82Fdmode:quicktofpapgxkimg 任 成 链接 


上 面 的 代码 中 使 用 了 发 送 邮件 的 功能 ,此 处 应 参照 代码 段 8. 20 所 示 的 配置 信息 ,在 
elasticsearch. yml 中 配置 好 电子 邮件 账户 。 此 外 ,请 求 报告 的 时 间 间 隔 应 大 于 报告 生成 的 
时 间 间 隔 , 必 要 时 应 适当 增加 请 求 报告 的 时 间 间 隔 :报告 生成 的 时 间 间 隔 默认 为 30s, 如 果 
由 于 某 些 原因 ,例如 报告 中 的 信息 较为 复杂 ,或 生成 报告 的 计算 机 运行 较 慢 ,导致 常规 生成 
时 间 超 过 30s, 那 么 应 该 在 elasticsearch. yml 配置 文件 中 调整 报告 生成 超时 时 长 。 
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87 使 用 Graph 探索 数据 天 联 


X-Pack 中 的 Graph 能 够 对 Elasticsearch 索引 文件 中 的 数据 进行 分 析 ,并 为 用 户 展示 不 
同 数据 之 间 的 关联 ,这 有 利于 发 现 海量 数据 之 间 的 关联 。 基 于 这 些 信息 ,用 户 可 以 在 欺诈 检 
测 、 信 息 推荐 等 多 个 应 用 领域 对 数据 潜在 的 作用 进行 挖掘。 本 节 对 Graph 插件 的 使 用 进行 
介绍 。 

在 Graph 中 ,一 个 图 表示 Elasticsearch 索引 中 一 组 相关 信息 的 网 络 。 其 中 ,文档 数据 
中 的 每 个 词 项 为 一 个 节点 ,两 个 词 项 之 间 的 联系 为 一 条 边 。Elasticsearch 为 Graph 提供 了 
用 来 生成 边 的 聚合 , 可 用 来 在 所 有 数据 中 寻找 最 有 意义 的 关联 。Graph API 利用 
Elasticsearch 的 相关 性 评分 和 排序 工具 来 检索 和 分 析 数 据 。 

在 Kibana 中 , 单 击 左 侧 导 航 栏 中 的 Graph 导航 按钮 即 可 进入 Graph。 刚 进入 时 ,整个 
页 面 几乎 是 空白 的 ,只 有 上 方 提供 了 选择 索引 模式 .字段 和 输入 查询 条 件 的 文本 框 等 功能 ， 
如 图 8. 22 所 示 。 


New Graph Workspace New Save Open Delete Settings 
Select index pattern... MM © foo AND bar NOT baz 


图 8.22 ”Graph 插件 初始 界面 


首先 ,在 左边 的 Select index pattern 下 拉 列 表 中 选择 一 个 索引 模式 。 如 果 需 要 某 个 索 
引 模 式 出 现在 列表 中 ,应 事先 在 Management 中 的 index pattern 中 添加 ,此 处 可 选择 
whale, 随 后 右 侧 添加 字段 的 @ 按 钮 变 为 可 用 , 单 击 该 按钮 .下 方 会 弹出 字段 列表 ,如 图 8. 23 
所 示 。 


New Graph Workspace New Save Open Delete Settings 


we "© 加 


Add a fleld source for vertices © 
Q Fiker 


http_method 
http_method.keyword 
log_size 

os 


图 8.23 选择 索引 后 ,添加 字段 按钮 可 用 
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选择 一 个 或 多 个 字段 ,这 里 选择 了 os ,status_code 和 timestamp 3 个 字段 ,并 将 每 个 字 
段 的 Max terms per hop 属性 设 为 10。 此 时 ,后 面 的 查询 条 件 输入 框 变 为 可 用 。 该 输入 框 
支持 Lucene 中 的 查询 语法 (例如 query string 等 )。 在 其 中 输入 * 表示 查询 全 部 内 容 , 如 
图 8.24 所 示 。 

mr 二 
timestamp 


color 990999890@@ 
ion 已 ©A 外 RR?IADE TACY! 


Maxtermsperhop | 10 


Contros the number of terms returned each search step. 
Shif-dicking the field icons in the menu bar provides a quick way to toggle ihis number to zero 
and back 


图 8.24 查询 全 部 信息 


单 击 右 侧 的 查询 按钮 ,界面 中 即 出 现 如 图 8. 25 所 示 的 Graph, 它 是 由 点 和 边 组 成 的 图 ， 
图 中 每 个 点 都 是 文档 中 的 词 项 ,图 中 的 连 线 显示 了 词 项 之 间 的 关联 。 


> 
A 
SN 


2018-01-14T15:27:03.000 2018-01-14T15:27:02.000Z 
2018-01-14T15:18:49.000Z 


8. 25 ”基于 查询 结果 创建 的 Graph 


单 击 图 中 的 任意 一 条 边 , 可 以 查看 两 点 之 间 的 关联 数据 ,如 图 8. 26 所 示 。 其 中 ,上 部 的 
2018-01-14T15:27:02 为 timestamp 字段 的 数据 ,302 为 status_code 中 的 数据 ,两 端的 @ 按 
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钮 可 以 实现 将 该 点 向 另 一 侧 合 并 ;中 间 的 韦 恩 图 中 ,两 个 
圆 形 的 大 小 和 相对 位 置 描述 了 两 点 的 数量 和 包含 关系 ;下 |@ 2o18o1-14T1527:020007302 
部 左 侧 的 数字 360 表示 索引 中 包含 词 项 2018-01-14T15: 

27:02 的 文档 数 , 右 侧 的 数字 8731 表示 索引 中 包含 词 项 lo 360 sz3i 

302 的 文档 数 ,中 间 括 号 中 的 数字 360 表示 索引 中 同时 包 ”图 8.26 两 点 间 的 关联 数据 
含 两 种 词 项 的 文档 数 。 


88 使 用 Machine Leaming 发 现 数据 欧 独 异常 


随 着 数据 量 及 其 复杂 度 的 日 益 增 加 ,通过 人 工 方式 在 仪表 板 中 检查 数据 错误 、 网 络 攻 击 
等 问题 变 得 不 切实 际 。X-Pack 插件 中 的 Machine Learning 组 件 可 自动 对 基于 时 间 序 列 数 
据 的 正常 行为 进行 建 模 ,通过 学 习 数据 的 趋势 和 周期 性 等 信息 ,实时 地 识别 数据 异常 ,简化 
根本 原因 分 析 过 程 ,并 减少 误 报 。 

Machine Learning 组 件 是 以 任务 (job) 为 基本 单位 执行 的 。 在 其 Job Management 选项 

国 按 钮 即 可 创建 一 个 新 任务 。 接 着 ,选择 一 个 索引 ,进入 向 导 选 择 界面 。 

界面 中 提供 了 4 种 向 导 ,分 别 为 Single metric、Multi metric、Population 和 Advanced。 本 节 
以 Single metric 为 例 , 对 任务 的 创建 进行 介绍 。 

单 击 Single metric, 界 面 跳 转 到 单 指 标 任务 创建 向 导 页 面 。 在 页 面 中 的 Aggregation 
下 拉 列 表 中 选择 Sum,Field 下 拉 列 表 中 选择 # views,Bucket span 设置 为 7d( 即 7 天 的 时 间 
间隔 ), 如 图 8. 27 所 示 。 


New job from index pattern it-home Chartintervat Use tuithome dara | 
pion Field@ Bucket span @ 
Sm ~ 关 Views ~ 7d Estimate bucket span 四 


图 8.27 设 定 新 任务 的 聚合 .字段 和 bucket 时 间 间 隔 


单 击 图 8. 27 中 右 侧 的 贺 按 钮 ,界面 中 会 出 现 数据 随时 间 变 化 的 趋势 折线 图 ,如 图 8. 28 
所 示 。 

在 界面 下 方 设置 任务 名 称 , 添 加 任务 描述 。 如 果 需 要 给 任务 分 组 ,可 以 在 分 组 输入 框 中 
输入 组 名 。 最 后 单 击 葬 二 于 弹 按钮 , 即 可 创建 该 任务 。 然 后 ,在 Machine Learning 任务 列表 
中 启动 该 任务 ,并 设 定 起 止 日 期 ,程序 即 开始 学 习 数 据 的 变化 趋势 ,并 在 未 来 对 可 能 的 异常 
做 出 判断 ,如 图 8. 29 所 示 。 

单 击 图 8. 29 中 的 医 


四 按钮 .可 以 跳 转 到 Single Metric Viewer 选项 卡 ,查看 程序 对 
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图 8.28 数据 变化 趋势 折线 图 
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Job it-home_views_sum_per_week created w 


图 8.29 程序 开始 学 习 数据 变化 趋势 


数据 是 否 异常 做 出 的 判断 ,如 图 8. 30 所 示 ,一 旦 程序 发 现 异 常 , 将 会 在 时 间 轴 上 以 红色 标记 
高 亮 显示 。 

在 任务 的 创建 过 程 中 ,在 选择 向 导 的 界面 中 选择 Data Visualizer, 可 以 查看 数据 中 的 各 
种 指标 和 字段 的 详细 数据 统计 展示 。 图 8. 31 展示 了 it-home 索引 文件 统计 信息 中 的 两 项 ， 
左 侧 为 程序 对 数值 型 字段 views 的 metric 统计 信息 ,其 中 包含 该 字段 的 最 小 值 平 均值, 最 
大 值 等 统计 数据 展示 ; 右 侧 为 对 非 数 值 型 字段 editorName 的 bucket 统计 信息 ,其 中 包含 该 
字段 不 同 内 容 的 数量 统计 数据 展示 。 
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Single time series analysis of sum views 
show model bounds 


Zoom: auto 1w 2w 1M (aggregation intervat: 1w, bucket span: 7d) 


图 8. 30 ”查看 程序 对 数据 是 否 异常 的 判断 


负 773 documents (100.0%) m773 documents (100.0%) 


蝙 580 distinct values 蝙 9 distinctvalues 
min median max top values 
36 728 4023 
小 O45% 
distribution of values ~ 半 豆 花 开 腹 4.9% 
i wonbuqlang ao 
忻 纤 作 浪 | 34% 
peng5007| 1.9% 
tpniu| 0.9% 
萤火虫 的 秋 | 0.5% 
gfytser| 0.1% 
喘 喘 小 绑 条 | 01% 
Calculated from sample of 5000 documents per shard 
1000 2000 


图 8.31 针对 指标 和 字段 的 详细 数据 统计 展示 


89 使 用 Search Profiler 分 析 搜 索 查 询 


Elasticsearch 拥有 一 个 功能 强大 的 分 析 器 API, 可 用 于 检查 和 分 析 搜索 查询 。 但 其 对 
于 搜索 的 回应 是 一 个 非常 庞大 的 JSON 数据 ,很 难 进行 人 工分 析 。 为 此 X-Pack 提供 了 
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Search Profiler 工具 ,可 以 将 JSON 输出 转换 为 易于 查看 的 可 视 化 内 容 , 使 用 户 能 够 更 快 地 
诊断 和 调试 性 能 不 佳 的 查询 。 

在 Dev Tools 界面 中 单 击 Search Profiler 选项 卡 , 即 可 进入 Search Profiler 界面 。 在 界 
面 左 侧 输入 索引 名 称 ,指定 统一 的 类 型 名 (这 里 使 用 统一 的 _doc 类 型 名 ) ,并 在 下 方 写 入 一 
条 查询 语句 ,界面 右 侧 即 显示 出 各 个 分 片 的 执行 时 间 , 如 图 8. 32 所 示 , 从 而 有 利于 用 户 推 断 
搜索 引擎 的 性 能 负载 情况 。 


Console 。 Search Profler GrokDebugger 
ne ype Query Profle | Asgregation Proflle 
whale doc 
Index: whale Cumulatve Time: 234.167ms 
ey | 
加 ， “match_all” : {} > [SDSFWxlaTzKgWeOv_GmncQJ[O] [NE 
5 
> [SDSFWxlaTzKgWeOv_GmncQI[3] 
> [SDsPWxlaTzKgWweOv_GmncQJ[2] 
> [SDsPWxlaTzKgWeOv_GmncQJ[4] 
> [SDsPWxlaTzKgWweOv_GmncQI'] 


图 8.32 分 片 执行 时 间 可 视 化 


可 执行 一 个 稍 复杂 的 查询 ,包含 一 个 由 全 文 检索 和 词 项 检索 组 成 的 布尔 查询 和 一 个 数 
值 聚合 。 执 行 后 ,界面 右 侧 可 以 在 每 个 分 片 中 分 别 查看 各 种 查询 的 执行 时 间 以 及 详细 的 统 
计数 据 , 如 图 8. 33 所 示 。 


Query Profle 。 Aggregation Proflle 


whale 
[SDSFWxlaTzKgWeOv_GmncQJ[2] 


Index: whale Cumulative Time: 9.866ms 
> [SDSFWxlaTzKgWeOv_GmncQJ[2] 
Self 。 Total 
Type Time Time *Time 


~ BooleanQuery 
os:linux ConstantScore({name:200 name-:sta... 
TermQuery osnux [本 3 
v ConstantScoreQuery i 


ConstantScorefname:200 name-status._ code... 
Y BooleanQuery name:200 name:status code heyword 0.2ms 


TermQuery name:200 0.0ms 
TermQuery namestatus code keyword 00ms 
> [SDSFWxlaTzKgweOv_GmncQI1] ET 
> [SDSFWxlaTzKgWeOv_GmncQJ[4] 


图 8.33 各 种 查询 的 执行 时 间 可 视 化 
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对 于 查询 中 的 聚合 , 单 击 上 方 Aggregation Profile 可 以 查看 聚合 对 应 的 相关 可 视 化 内 
容 , 如 图 8. 34 所 示 。 


QueryProflle & Aggregation Profile ReaTzkgweov, GmncQII] 
nn 
Index: whale Cumulative Time: 4.461ms sggregator 
Description 
> [SDSFWxlaTz<gWeOv GmncQl[1] 1.143ms [| | Time 
If 1 Et 
Sel Total Self Time 
Type Time Time %Time 1.143ms 
StatsAggregator stats Bm mg ooow | 辣 TimingBreakdow | 
> [SDSFWxlaTz<gWeOv_GmncQI[4] Dm: WN nallze 8.7ps I 
bulld_aggregation 43bs 0% 
> [SDSFWxlaTz<gweOv_GmncQI2] Dom reduce oons Cao 
> [sDsFwxlaTzxkgWeov_GmncQlIol Dam: WN 
> [SDSPWxlaTzgWeOv_GmncQI3] OCT | 


图 8.34 聚合 的 执行 时 间 可 视 化 


810 使 用 Grok Debugger 调试 gok 表达 式 


X-Pack 插件 中 包含 Grok 调试 器 工具 ,用 户 可 以 在 将 Grok 表达 式 用 于 生产 环境 之 前 
在 此 工具 中 构建 和 调试 Grok 表达 式 。 在 Dev Tools 界面 中 单 击 Grok Debugger 即 可 跳 转 
到 该 调试 器 界面 。 其 使 用 方法 十 分 简单 ,只 需 在 Sample Data 输入 框 中 指定 要 测试 的 日 志 ， 
之 后 在 Grok Pattern 输入 框 中 写 入 Grok 表达 式 , 最 后 单 击 攻 按钮 , 即 可 对 日 志 信 息 按 
照 输入 的 模式 进行 结构 化 匹配 ,如 图 8. 35 所 示 。 


Sample Data 
1 55.3.244.1 GET /index.html 15824 9.943| 


Grok Pattern 
工 {IP:client]} {WORD:nethod)} X(URIPATHPARAN: reauest} %fNUNBER:bytes] XNUMBER:duration]| 


» Custom Patterns 


Structured Data 


图 8. 35 调试 Grok 表达 式 
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如 果 用 户 输入 的 Grok 表达 式 不 能 实现 对 日 志 原 文 的 匹配 ,或 表达 式 出 现任 何 错误 , 界 
面 项 端 会 以 弹出 红色 条 幅 报 错 的 形式 提示 给 用 户 。 


811 扩展 知识 与 阅读 


应 用 软件 系统 的 运行 维护 工作 往往 是 较为 耗 时 和 枯燥 的 。 以 往 的 工作 人 员 需 要 密切 关 
注 众多 服务 器 主机 的 运行 状况 ,在 一 些 并 不 优越 的 工作 条 件 下 ,需要 通过 外 置 的 计算 机 ( 例 
如 笔记 本 电脑 通过 实体 接线 来 连接 服务 器 ) 了 解 单 台 服 务 器 主机 的 运行 数据 ,并 判断 其 运行 
状况 。 在 较 好 的 条 件 下 ,工作 人 员 可 以 开发 或 从 其 他 企业 购买 成 熟 的 软件 系统 运行 监控 管 
理 系 统 或 运 维 服务 。 以 往 的 这 些 工作 模式 无 疑 加 大 了 工作 人 员 的 工作 压力 ,同时 很 大 程度 
上 抬 高 了 软件 服务 开发 .运行 和 维护 的 成 本 ,降低 了 工作 人 员 的 工作 效率 。 针 对 上 述 问 题 ， 
Elastic 公司 推出 的 运行 监控 插件 X-Pack 能 够 从 应 用 系统 层面 上 对 数据 进行 监视 和 问题 预 
判 ,可 以 有 效 地 缓解 工作 人 员 运 维 工 作 烦 琐 、 难 度 大 的 问题 ,同时 也 节省 了 传统 方式 开发 或 
购 进 运行 监控 管理 系统 的 开销 。 


812 本 章 狼 结 


本 章 对 X-Pack 插件 的 使 用 及 配置 方法 进行 了 描述 ,内 容 涉及 安全 性 配置 和 权限 管理 、 
监控 集群 的 运行 状态 .利用 监视 器 在 系统 即将 出 现 异 常 时 触发 预警 操作 ,为 可 视 化 统计 图 表 
和 检索 生成 PDF 报告 `. 通 过 绘制 Graph 来 挖掘 数据 之 间 的 潜在 关联 以 及 利用 Machine 
Learning 发 现 数据 变化 趋势 中 的 异常 。X-Pack 的 加 入 可 以 为 Kibana 的 运行 提供 信息 安全 
和 运行 维护 的 保障 ,同时 也 为 各 种 可 视 化 结果 的 序列 化 操作 和 对 数据 中 潜在 可 用 信息 的 挖 
掘 提供 了 便利 。 作 为 以 前 版 本 当中 各 类 插件 的 统一 封装 包 ,X-Pack 与 Kibana 的 无 缝 整合 
加 强 了 系统 完整 性 ,从 而 提升 了 用 户 的 使 用 体验 。 
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基于 Beats 的 数据 解析 传输 


Beats is the platform for single-purpose data shippers. They install as 
lightweight agents and send data from hundreds or thousands of machines to 
Logstash or Elasticsearch. Beats are great for gathering data. They sit on your 
servers and centralize data in Elasticsearch. And if you want more processing 
muscle，Beats can also ship to Logstash for transformation and parsing. The 
Beats family includes Filebeat， Metricbeat, Packetbeat， Winlogbeat, 
Auditbeat, Heartbeat. etc. 

https://www. elastic. co/products/beats 


Beats 是 Elastic 公司 推出 的 一 套 开 源 工具 ,用 于 将 服务 器 端 不 同类 型 的 数据 进行 解析 
和 转换 并 传输 到 Elasticsearch。 数 据 既 可 以 直接 传输 给 Elasticsearch, 也 可 以 通过 
Logstash 处 理 后 送 入 Elasticsearch。 在 开源 社区 中 ,众多 第 三 方 企业 .工具 或 协议 均 拥 有 自 
己 的 专属 Beats, 例 如 amazonbeat apachebeat httpbeat .mongobeat .mysqlbeat ,redisbeat、 
springbeat .twitterbeat .udpbeat 等 。Elastic Stack 官网 也 针对 自己 的 软件 产品 开发 了 
Beats 工具 ,如 elasticbeat ,logstashbeat 等 。 参 照 Elastic Stack 官网 资料 , Beats 与 Elastic 
Stack 之 间 数 据 传输 的 示意 图 如 图 9. 1 所 示 。 

Elastic 公司 推出 了 6 种 通用 Beats 工具 : packetbeat ,filebeat .metricbeat .winlogbeat、 
auditbeat 和 heartbeat。packetbeat 是 一 种 在 应 用 服务 器 间 传 输 事务 信息 的 分 析 器 ,可 完成 
网 络 数据 包 传输 ;filebeat 从 服务 器 端 传送 日 志文 件 , 可 完成 日 志文 件数 据 传输 ; metricbeat 
是 一 种 服务 器 监控 代理 程序 ,可 分 时 段 采 集 服务 器 上 操作 系统 和 服务 的 各 项 指标 ; 
winlogbeat 负责 传输 Windows 事件 日 志 ;auditbeat 用 来 审查 系统 中 用 户 和 进程 的 活动 情 
况 ;heartbeat Ps 可 安装 在 远程 服务 器 上 ， 人 
其 是 否 可 用 。Elastic 公司 还 推出 了 libbeat 运行 库 , 使 用 Golang 语言 编写 。 所 有 的 Beats 

工具 均 使 用 libbeat pe API 接口 ,以 执行 传输 数据 到 leatesearcl 本 训 上 报 的 给 大 ` 头 


区 人 二 
4282， 大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 一 “Elstic Stack 6: Elasticsearch、Logsash、Kibana、X-Pack、Beats (第 4 版 ) 


EN 由 和 
1 1 1 可 视 化 
1 全 一 一 
!! | bd 


uditbont 1 1 me et Elasticsearch Kibana 


| :法 
| 
| 六 
!! 
‘filebeat mee ! 
| 国 
| ® : 国 
人 heartbeat 1! winlogbeat ， Logstash 


图 9.1 Beats 与 Elastic Stack 间 数 据 传输 示意 图 


现 日 志 记 录 等 任务 。 限 于 篇 幅 ,本 章 只 对 这 6 种 通用 Beats 工具 的 安装 、 使 用 及 可 视 化 展示 
方法 进行 简要 介绍 。 


91 及 于 packetbeat 的 网 络 数据 包 传 输 


9.1.1 概述 


packetbeat 是 一 种 实时 网 络 数 据 包 传输 分 析 工 具 , 可 用 来 与 Elasticsearch 共同 构建 一 
套 应 用 程序 监控 和 性 能 分 析 系 统 。packetbeat 的 主要 功能 包括 : 捕获 应 用 服务 器 间 网 络 信 
息 流通 量 ,对 应 用 层 的 数据 (如 HTTP、MySQL 或 Redis 等 ) 进 行 解码 ,关联 请 求 和 响应 ,以 
及 对 每 种 事务 中 有 价值 的 输出 字段 进行 记录 ,等 等 。packetbeat 能 够 嗅 探 服务 器 间 的 网 络 
通路 ,并 直接 将 相关 事务 信息 存 人 Elasticsearch 中 ,这 有 利于 用 户 对 网 络 信息 流通 量 和 日 
志 信息 进行 分 析 , 也 便于 用 户 关注 后 端 程序 出 现 的 漏洞 或 性 能 缺陷 ,以 完成 快速 修复 。 


9.1.2 安装 


在 安装 packetbeat 之 前 ,需要 确保 Elastic Stack 相关 产品 
(可 选 ) 和 Kibana 已 经 完成 安装 和 配置 (Elasticsearch 提供 数据 的 存储 和 索引 功能 ， 
Logstash 负责 将 数据 插入 Elasticsearch,Kibana 提供 前 端 可 视 化 展示 界面 ) 。 

接 下 来 下 载 和 安装 packetbeat。 以 64 位 Ubuntu 系统 为 例 . 首 先 确保 libpcap 公用 库 准 
备 就 绪 ,在 终端 中 执行 如 下 命令 来 安装 libpcap 0. 8( 如 该 公用 库 已 安装 ,将 会 输出 libpcap 0. 8 
已 经 是 最 新 版 的 信息 ) : 


Elasticsearch 、Logstash 
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sudb apt— get install libpcap0.8 
使 用 curl 命令 从 Elastic Stack 官网 获取 packetbeat 的 DEB 格式 安装 包 ( 其 中 6. 2.4 是 
与 当前 Elastic Stack 产品 版 本 一 致 的 版 本 号 ,读者 可 根据 实际 情况 修改 ): 


curl -L -0 https://artifacts.elastic.co/downloads/beats/packetbeat/packetbeat- 6.2.4- amd64.deb 


获取 packetbeat 安装 包 的 过 程 如 图 9.2 所 示 。 


图 9.2 获取 packetbeat 安装 包 
最 后 使 用 下 面 的 终端 命令 解 包 并 安装 packetbeat: 
sudo dpky - i packetbeat- 6.2.4- ama64.dab 


安装 过 程 如 图 9. 3 所 示 。 


图 9.3 安装 packetbeat 


2 
这 里 使 用 的 DEB 安装 包 是 Debian Linux 的 一 种 安装 格式 ,能 够 使 用 系统 自 带 
的 包 管 理 器 直接 自动 安装 。 使 用 DEB 包 安 装 应 用 程序 , 比 其 他 安装 方式 更 为 便捷 易 用 。 


9 13 配置 


使 用 DEB 包 执行 安装 后 ,packetbeat 默认 保存 在 /etc/init. d 目录 下 ,packetbeat 配置 文 
件 packetbeat. yml 默认 保存 在 /etc/packetbeat 目录 下 ,packetbeat 的 各 项 指标 可 以 在 该 文 
件 中 进行 配置 。 下 面 简要 介绍 packetbeat. interfaces. device 配置 项 及 其 功能 。 

packetbeat. interfaces. device 指定 安装 了 packetbeat 的 服务 器 端 与 何 种 设备 之 间 进 行 
信息 收发 。packetbeat 支持 向 任何 设备 均 收发 信息 ,该 项 设置 为 any 即 可 。 在 配置 文件 中 
的 协议 配置 部 分 可 设置 每 一 种 协议 的 端口 号 ,以 便 packetbeat 对 其 进行 识别 。 如 需 配 置 某 
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些 标准 之 外 的 端口 号 ,也 应 添加 到 配置 文件 中 。 代 码 段 9. 1 是 各 类 协议 和 软件 产品 的 端口 
设置 示例 。 


代码 段 9.1: 各 类 协议 和 软件 产品 的 端口 配置 
Packetbeat .protocols: 
-type: dns 
Ports: [53] 
include authorities: true 
include additionals: true 
-type: http 
Ports: [80, 8080, 8081, 5000, 8002] 
一 type: memcache 
ports: [11211] 
- type: mysql 
ports: [3306] 


packetbeat 要 将 数据 送 入 Elasticsearch, 需 要 指定 Elasticsearch 的 IP 地 址 和 端口 信 
息 。 代 码 段 9.2 为 packetbeat. yml 配置 文件 中 指定 Elasticsearch 的 IP 地 址 和 端口 信息 的 
实现 方法 。 


代码 段 9.2: 配置 packetbeat 输出 到 Elasticsearch 
utput .elasticsearch: 
hosts: ["localhost:9200"] # 指 定 耳 地 址 和 端口 号 


如 果 Elasticsearch 和 Kibana 安装 了 X-Pack 并 启用 了 Security, 那 么 配置 中 需要 带 有 
身份 认证 信息 ,如 代码 段 9. 3 所 示 。 
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代码 段 9.3: 带 有 身份 认证 信息 的 Packetbeat 配 置 
output.elasticsearch: 
hosts: ["localhost:9200"] # 指 定 集群 中 Elasticsearch 节 点 的 下 地 址 和 端口 号 
Username: "elastic" # 指 定 访问 Elasticseardh 集 群 的 用 户 名 
password: "elastic" # 写 人 用 户 的 密码 
setup.kibana: 
host: "localhost:5601" # 指 定 Kibana 实例 的 全 地 址 和 端口 号 
username: "elastic" # 指 定 访问 Kibana 实 例 的 用 户 名 
password: "elastic" # 写 人 用 户 的 密码 


9.1.4 ”加 载 索 引 模 板 


在 Elasticsearch 中 ,索引 模板 用 来 定义 对 索引 和 类 型 的 设置 ,同时 可 定义 各 种 文档 字 
段 的 映射 ,以 决定 字段 的 各 项 属性 。 在 packetbeat 中 也 有 类 似 的 索引 模板 ,默认 以 YAML 
格式 保存 在 /etc/packetbeat 文件 夹 中 ,文件 名 为 fields. yml。packetbeat 成 功 连 接 
Elasticsearch 后 ,将 会 自动 加 载 这 一 模板 。 如 果 需 要 让 packetbeat 加 载 其 他 索引 模板 ,可 在 
packetbeat. yml 配置 文件 中 修改 template. name 和 template. path 配置 ,如 代码 段 9. 4 
所 示 。 


代码 段 9.4: 修改 加 载 索引 模板 的 配置 信息 
utput .elasticsearch: 


hosts: ["localhost:9200"] # 指 定 人 地 址 和 端口 号 
template.name: "packetbeat" # 指 定 模 板 名 称 
template.fields: "/home/cy/fields.yml" # 指 定 模板 文件 路 径 
tenplate.overwrite: false # 指 定 是 否 覆盖 


当 这 段 配置 信息 中 的 template. overwrite 配置 为 false 时 ,即使 索引 中 已 存在 模板 ,已 
有 模板 也 不 会 被 覆盖 。 如 果 需 要 覆盖 模板 , 则 应 将 template. overwrite: false 修改 为 
template. overwrite: true。 如 果 要 禁用 自动 加 载 模板 ,可 不 执行 代码 段 9. 3 所 示 的 配置 
信息 。 


1 
E&P 在 Logstash 的 output 被 启用 的 情况 下 .自动 加 载 索 引 模 板 的 功能 是 不 受 支 
持 的 。 


如 果 需 要 手动 加 载 模板 功能 ,可 执行 代码 段 9. 5 所 示 的 终端 命令 。 
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代码 段 9.5: 手动 加 载 索引 模板 功能 
curl —H 'Content- Type: application/json' - XPUT ‘http://localhost:9200/ 
_template/packetbeat' - d @ packetbeat..terplate.json 


如 果 在 加 载 索引 模板 前 已 使 用 packetbeat 向 Elasticsearch 传输 过 数据 ,那么 索引 文件 
中 可 能 存在 过 时 数据 。 在 新 模板 被 加 载 时 ,可 执行 代码 段 9.6 所 示 命 令 删 除 旧 数据 ,并 以 此 
来 强制 Kibana 在 可 视 化 过 程 中 使 用 新 数据 。 


代码 段 9.6: 删除 索引 文件 中 的 旧 数 据 
curl ~ XIETETE "http://localhost:9200/packetbeat- * " 


9.1.5 启动 和 关闭 
在 终端 中 使 用 如 下 命令 来 启动 packetbeat 
Sudo service packetbeat start 


终端 界面 将 会 输出 如 图 9.4 所 示 的 日 志 信 息 。 


图 9.4 启动 packetbeat 
packetbeat 启动 后 , 即 开始 获取 服务 器 端 网 络 流通 数据 。 此 时 可 以 尝试 利用 代码 段 9.7 
所 示 的 curl 命令 来 创建 一 个 简单 的 HTTP 请 求 , 以 便 其 能 被 packetbeat 获取 。 执 行 代 码 段 
9. 8 所 示 的 命令 ,可 查验 该 数据 是 否 已 被 Elasticsearch 获取 。 


代码 段 9.7: 创建 网 络 访问 数据 
curl http://www.elastic.co/> /dev/null 


代码 段 9.8: 验证 Packetbeat 获 取 数 据 的 功能 
curl -H 'Content- Type: application/json"' - XGET "htbp://localhost:9200/ 
Packetbeat- * /_search2pretty" 


如 需 关闭 packetbeat, 可 以 在 终端 执行 如 下 命令 : 


sudo service Packetbeat stop 


第 9 章 基于 Beats 的 数据 解析 传输 287,1 


此 时 终端 界面 将 输出 如 图 9. 5 所 示 的 日 志 信 息 。 


图 9. 5 关闭 packetbeat 


9.1.6 使 用 Kibana 进行 可 视 化 展示 


packetbeat 在 运行 时 会 将 收集 到 的 数据 存 人 Elasticsearch 中 以 “packetbeat- 版 本 号 -日 
期 ?开头 的 索引 文件 中 ,此 时 可 在 Kibana 界面 中 单 击 Management 导航 按钮 ,在 Index 
Patterns 界面 中 添加 这 样 的 索引 模式 ,在 索引 名 称 的 输入 框 中 填写 “packetbeat- * ”, 待 下 方 
出 现 匹配 成 功 提示 后 也 可 以 将 名 称 补 全 ,然后 在 Time Filter field name 输入 框 中 选择 
@timestamp 字段 , 即 可 单 击 Create index pattern 按钮 添加 相关 索引 模式 ,如 图 9.6 所 示 。 


Step 2 of 2: Configure settings 
Youve defined packetbeat-* as your Index pattern. Now you can speclfy some settings 
before we create It. 
Time Flker field name Refresh 
@timestamp 2 


The Time Filter will use this field to filter your data by time. 


You can choose not to have a time field, but you will not be able to 
narrow down your data by a time range. 


> Show advanced optlons 


图 9.6 添加 索引 模式 


接 下 来 ,可 以 创建 各 种 可 视 化 统计 图 表 , 对 索引 文件 中 的 数据 进行 展示 。Kibana 中 可 
视 化 统计 图 表 的 创建 方法 在 第 7 章 已 介绍 过 ,利用 其 中 的 方法 ,可 以 将 packetbeat 获取 的 各 
类 数据 进行 可 视 化 展示 。 在 图 9.7 中 ,分别 对 网 络 流通 量 .总 发 包 数 .传输 状态 .网络 数据 包 
送 达 总 量 ,数据 包 传输 状态 和 服务 器 间 IP 统计 等 信息 进行 了 展示 。 其 中 第 一 个 统计 图 带 有 
时 间 轴 ,显示 了 网 络 流 通 量 随时 间 变 化 的 情况 ;中 间 两 个 统计 表 显 示 了 数据 包 和 传输 状态 的 
统计 数据 ; 右 侧 上 方 饼 图 展示 了 各 种 网 络 请 求 成 功 和 失败 的 比率 ,而 右 侧 下 方 饼 图 展示 了 不 
同 全 地址 之 间 数 据 传输 的 比率 。 
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图 9.7 可 视 化 展示 


92 及 于 Flebeat 的 日 志 传 输 


9.2.1 概述 


Filebeat 负责 在 服务 器 端 传输 日 志 数据 ,能 够 对 存储 日 志文 件 的 目录 或 特定 日 志文 件 
进行 监控 ,并 将 数据 信息 传送 到 Elasticsearch 或 Logstash 中 。 

Filebeat 以 一 种 “探测 并 传输 ”的 方式 工作 。 程 序 启动 后 ,将 会 创建 一 个 或 多 个 探测 器 
(Harvester) ,以 便 在 特定 位 置 探测 日 志文 件 信息 并 获取 日 志 内 容 。 每 一 个 新 发 现 的 日 志 
容 均 会 被 发 送 给 Spooler 处 理 程序 ,该 程序 将 对 每 一 个 事件 进行 聚合 ,并 将 聚合 之 后 的 数据 
发 送 给 预先 配置 好 的 输出 端 (如 Elasticsearch、Logstash、Kafka 或 Redis 等 )。 图 9. 8 为 来 
自 ElasticStack 官网 的 Filebeat 的 数据 处 理 流 程 示意 图 。 


9.2.2 安装 和 配置 


安装 Filebeat 之 前 ,需要 确保 Elastic Stack 相关 软件 Elasticsearch、Logstash( 可 选 ) 和 
Kibana 已 经 完成 安装 和 配置 。 在 9. 1. 2 节 中 已 介绍 了 libpcap 软件 的 安装 ,这 里 直接 使 用 
该 软件 执行 下 面 的 第 一 个 命令 ,从 Elastic Stack 官网 获取 Filebeat 的 DEB 安装 包 , 其 中 6. 2.4 
表示 版 本 号 。 获 取 安 装 包 之 后 ,在 终端 执行 第 二 个 命令 解压 并 安装 Filebeat。 


Curl -L -Ohttps://artifacts.elastic.co/downloads/beats/filebeat/filebeat— 6.2.4- amd64.dsb 
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图 9.8 Filebeat 数据 处 理 流程 示意 图 


sudob dpkg -i filebeat- 6.2.4- and64.dsb 


Filebeat 程序 默认 保存 在 /etc/init. d 目录 下 ,其 配置 文件 Filebeat. yml 默认 保存 在 
/etc/Filebeat 目录 下 。 在 Filebeat. yml 配置 文件 中 ,可 以 对 要 收集 的 日 志 信息 所 在 的 路 径 
进行 配置 。 代 码 段 9. 9 演示 了 在 配置 文件 中 使 用 通配符 指定 一 个 或 多 个 日 志文 件 路 径 的 方 
法 。 值 得 注意 的 是 ,配置 信息 中 的 enabled 默认 为 false( 即 不 应 用 该 prospectors 配置 ) ,这 
将 导致 Filebeat 组 件 无 法 向 Elasticsearch 传输 数据 。 要 输出 数据 到 Elasticsearch 中 , 则 必 


须 将 该 项 的 enabled 设置 为 true。 


代码 段 9.9: 使 用 通配符 指定 日 志文 件 路 径 
filebeat .prospectors: 
-type: log 
enabled: true 
paths: 
— /var/log/* .log 
~ /usr/elasticsearch- 6.2.4/logs/* 


# 设 置 为 true 以 启用 该 配置 


# 指 定 系统 日 志 路 径 
# 指 定 Elasticsearch 日 志 路 径 


如 果 让 Filebeat 将 数据 送 入 Elasticsearch ,可 以 在 filebeat. yml 中 添加 代码 段 9. 10 所 
示 的 配置 信息 ,以 便 指定 Elasticsearch 的 IP 地 址 和 端口 号 。 同 时 ,如 果 Elasticsearch 中 局 
用 了 X-Pack 的 Security 机 制 , 则 需要 指定 身份 认证 信息 。 
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代码 段 9.10: 配置 Filebeat 输出 到 Elasticsearch 


hosts: ["ocalhost:9200"] # 指 定 耳 地址 和 端口 号 
Username: "elasticn # 指 定 用 户 名 
password: elasticn # 指 定 对 应 的 密码 


如 果 需 要 让 Logstash 额外 处 理 来 自 Filebeat 的 数据 ,那么 应 在 filebeat. yml 配置 文件 
中 添加 一 段 指定 Logstash 的 IP 地 址 和 端口 号 的 配置 信息 ,如 代码 段 9. 11 所 示 , 同 时 不 执 
行 代码 段 9. 10 所 示 的 Elasticsearch 的 配置 信息 。 


代码 段 9.11: 配置 Filebeat 输出 到 Logstash 
utput .logstash: 
hosts: [localhost:5044"] # 指 定 耳 地 址 和 端口 号 


! 
cp Logstash 在 这 里 默认 占用 5044 端口 。 


Filebeat 的 索引 模板 filebeat. template. json 默认 存放 在 /etc/filebeat 文件 夹 中 ,在 输出 
数据 到 Elasticsearch 的 功能 被 启用 的 情况 下 ,Filebeat 启动 时 会 自动 加 载 默 认 模 板 。 如 果 
需要 加 载 另 一 种 模板 , 则 需要 在 filebeat. yml 配置 文件 中 修改 相关 配置 ,如 代码 段 9. 12 
所 示 。 


代码 段 9.12: 修改 加 载 索 引 模板 的 配置 信息 
utput .elasticsearch: 
hosts: ["localhost:9200"] 


tenplate.name: "filebeat" # 模 板 名 称 
template.fields: "/home/cy/fields.yml" # 模 板 文件 路 径 
tenplate.overwrite: false # 禁 用 覆盖 


如 果 Elasticsearch 索引 中 已 经 存在 一 个 模板 ,那么 默认 不 允许 覆盖 已 有 的 模板 ,将 代 
码 段 9. 12 最 后 一 行 的 template. overwrite:false 修改 为 template. overwrite:true, 即 可 启用 
覆盖 功能 。 如 果 要 手动 加 载 模板 功能 ,可 在 终端 执行 代码 段 9. 13 所 示 的 curl 命令 。 


代码 段 9.13: 手动 加 载 索 引 模 板 功能 
curl - H 'Content- Type: application/json' ~ XPUT "htbp://localhost:9200/ 
_template/filebeat' - d @ /etc/filebeat/filebeat.template.json 
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代码 段 9. 14 所 示 的 命令 可 以 用 来 删除 旧 数 据 , 并 以 此 来 强制 Kibana 在 可 视 化 过 程 中 
使 用 新 数据 。 


代码 段 9.14: 删除 索引 文件 中 的 旧 数 据 
Curl - XDEIETE "http://localhost:9200/filebeat- *' 


9.2.3 启动 和 关闭 
在 终端 中 使 用 如 下 命令 来 启动 Filebeat: 
Sudo servioe filebeat start 


终端 界面 将 会 输出 如 图 9.9 所 示 的 日 志 信 息 。 


图 9.9 启动 Filebeat 


Filebeat 启动 后 , 即 开始 从 预先 在 配置 文件 中 配置 好 的 位 置 获取 日 志 信 息 , 并 传输 到 
Elasticsearch 中 。 如 需 关 闭 Filebeat ,可 以 在 终端 执行 如 下 命令 : 
Sudop service filebeat stop 


此 时 终端 界面 将 输出 如 图 9. 10 所 示 的 日 志 信息 。 


图 9. 10 关闭 Filebeat 


9.2.4 使 用 Kibana 进行 展示 


在 Kibana 的 Management 组 件 中 添加 一 个 新 的 索引 模式 ,在 过 滤 索 引文 件 名 称 的 输入 
框 中 填写 filebeat-* 来 匹配 所 有 由 Filebeat 创建 的 索引 文件 ,然后 在 下 面 的 Time-field 
name 中 选择 @timestamp ,最 后 单 击 Create index pattern 按钮 即 可 添加 Filebeat 的 相关 索 
引 模式 。 在 Discover 界面 中 ,可 以 通过 查询 来 查看 目前 所 有 文档 的 日 志 数据 的 统计 情况 ， 
如 图 9. 11 所 示 。 

使 用 条 形 统 计 图 .时 间 序 列 、 环 形 饼 图 和 统计 数值 等 不 同 的 可 视 化 统计 图 表 , 对 索引 文 
件 中 不 同时 段 的 日 志 记录 数量 统计 信息 进行 可 视 化 展示 ,并 将 所 有 可 视 化 结果 添加 到 一 个 
动态 仪表 板 中 ,如 图 9. 12 所 示 。 图 中 的 信息 表明 了 在 不 同 的 时 间 段 ,Filebeat 会 占用 系统 
资源 传输 各 种 日 志 信 息 。 其 中 ,左上 方 的 条 形 图 显示 了 在 一 定 的 时 间 段 内 日 志文 件数 据 被 
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图 9.11 日 志 数 据 统计 
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图 9.12 可 视 化 展示 


获取 和 传送 的 数据 量 随时 间 分 布 情况 ;右上 方 的 时 间 序 列 展 示 了 系统 中 日 志 数 据 获取 量 趋 
势 折 线 ; 左 下 方 的 环形 饼 图 表示 获取 的 日 志 数 据 所 在 行 号 的 比率 ; 右 下 方 的 统计 数值 表示 
Filebeat 采集 到 的 日 志 信息 数量 。 
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9.3.1 概述 


metricbeat 是 一 种 轻 量 级 的 系统 数据 指标 和 统计 信息 采集 器 ,能 够 分 时 段 采集 服务 器 
上 操作 系统 或 正在 运行 的 服务 程序 中 的 指标 和 统计 数据 。metricbeat 通过 收集 数据 的 方式 
来 监控 服务 器 以 及 Apache、 HAProxy、 MongoDB、MySQL、 Nginx、 PostgreSQL、 Redis、 
System 和 Zookeeper 等 服务 的 运行 状况 。metricbeat 可 以 将 收集 到 的 数据 直接 传输 到 
Elasticsearch 中 ,也 可 以 将 数据 发 送 给 Logstash、Redis 或 Kafka 等 。 
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9.3.2 安装 和 配置 


安装 metricbeat 之 前 ,需要 确保 Elastic Stack 相关 软件 产品 Elasticsearch、 Logstash 
(可 选 ) 和 Kibana 已 经 完成 安装 和 配置 。 在 终端 运行 下 面 第 一 个 命令 ,从 Elastic Stack 官网 
获取 metricbeat 的 DEB 安装 包 ( 其 中 的 6. 2.4 是 版 本 号 )。 获 取 安 装 包 之 后 ,在 终端 执行 第 
二 个 命令 ,完成 解压 并 安装 metricbeat。 

curl -L -0 https://artifacts.elastic.co/downloads/beats/metricbeat/metridheat— 6.2.4- amd64.deb 

sudo dpkg - i metricbeat- 6.2.4- amd64.deb 

程序 默认 保存 在 /etc/init. d 目录 下 ,其 配置 文件 metricbeat. yml 默认 保存 在 /etc/ 
metricbeat 目录 下 。 在 metricbeat. yml 配置 文件 中 ,可 以 对 模块 (module) 进 行 定 制 ,以 收集 
特定 的 指标 数据 ,每 一 个 模块 中 均 定义 了 一 个 指标 集 。 代 码 段 9. 15 演示 了 使 用 系统 运行 状 
态 模 块 来 采集 服务 器 系统 中 CPU 使 用 情况 、 内 存 使 用 情况 、 网 络 知 吐 量 等 数据 指标 以 及 进 
程 的 相关 统计 信息 的 方法 。 


代码 段 9.15: 为 Matricbeat 配置 system 模 块 
metricbeat.mpdules: 
—module: system # 指 定 模块 的 名 称 
metricsets: 
-qu # 指 定 模 块 中 具体 要 采集 的 指标 
-filesystem 
-memory 
一 network 
-process 
enabled: true # 指 定 是 否 启用 该 模块 
period: 10s # 指 定 采集 时 间 间 隔 
Processes: ['.* '] # 指 定 进程 ,这 里 使 用 通配符 ,表示 所 有 进程 
pu ticks: false # 指 定 是 否 采 集 CEU 时 钟 频率 


如 果 让 metricbeat 将 数据 送 入 Elasticsearch ,可 以 在 metricbeat. yml 中 添加 代码 段 
9. 16 所 示 的 配置 信息 ,需要 指定 Elasticsearch 的 IP 地 址 和 端口 号 ;如 果 Elasticsearch 已 经 
启用 X-Pack 的 Security 机 制 , 则 需要 在 配置 中 加 入 身份 验证 信息 。 


代码 段 9.16: 配置 metricbeet 输出 到 Elasticsearch 
output .elasticsearch: 
hosts: [mlocalhost:9200"] # 指 定 到 地 址 和 端口 号 
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Username: "elastic" # 指 定 用 户 名 
password: "elasticn # 指 定 对 应 的 密码 


metricbeat 的 索引 模板 fields. yml 默认 存放 在 /etc/metricbeat 文件 夹 中 。 在 输出 数据 
到 Elasticsearch 的 功能 被 启用 的 情况 下 ,metricbeat 启动 时 会 自动 加 载 默认 的 模板 。 如 果 
要 加 载 另 一 种 模板 , 需 在 metricbeat. yml 配置 文件 中 修改 相关 配置 ,如 代码 段 9. 17 所 示 。 


代码 段 9.17: 修改 加 载 索 引 模板 的 配置 信息 
output .elasticsearch: 
hosts: ["localhost:9200"] 
template.name: "metricbeatn 
template. fields: "/heme/cy/fields.yml" 
tenplate.overwrite: false 


如 果 Elasticsearch 索引 中 已 经 存在 一 个 模板 ,默认 不 允许 覆盖 已 有 的 模板 。 将 代码 
段 9. 17 最 后 一 行 的 template. overwrite:false 修改 为 template. overwrite:true, 即 可 启用 柳 


盖 功 能 。 如 果 要 手动 加 载 模板 的 功能 ,可 以 在 终端 执行 代码 段 9. 18 所 示 的 curl 命令 。 


代码 段 9.18: 手动 加 载 索 引 模 板 功能 
curl -H 'Content- Type: application/json' - XEUT 'http://localhost:9200/ 
_template/metricbeat' -d @ /etc/metricdbeat/metricbeat.template.jscn 


代码 段 9. 19 所 示 的 命令 可 以 用 来 删除 旧 数 据 , 并 以 此 来 强制 Kibana 在 可 视 化 过 程 中 
使 用 新 数据 。 


代码 段 9.19: 删除 索引 文件 中 的 旧 数 据 
curl ~ XLELETE "http://1ocalhost:9200/metricbeat- 关 ' 


9.3.3 启动 和 关闭 
在 终端 中 使 用 如 下 命令 来 启动 metricbeat: 
Sud service metricbeat start 


终端 界面 将 会 输出 如 图 9. 13 所 示 的 日 志 信 息 。 


图 9. 13 启动 metricbeat 
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metricbeat 启动 后 , 即 开始 采集 服务 器 端 操作 系统 或 服务 程序 的 相应 数据 指标 并 传输 
到 Elasticsearch 中 。 此 时 可 以 执行 代码 段 9. 20 所 示 的 curl 命令 ,验证 服务 器 端的 统计 数 
据 是 否 已 被 传输 到 Elasticsearch 中 。 


代码 段 9.20: 测试 metricbeet 的 采集 和 传输 功能 
curl -H 'Content- Type: application/json' - XGET "htbp://localhost:9200/ 
metricbeat- * /_ search?pretty" 


如 需 关 闭 metricbeat ,可 在 终端 执行 如 下 命令 : 
sudop service metricbeat stop 
此 时 终端 界面 将 输出 如 图 9. 14 所 示 的 日 志 信息 。 


图 9.14 关闭 metricbeat 


9.3.4 使 用 Kibana 进行 展示 

在 Kibana 的 Management 组 件 中 添加 一 个 新 的 索引 模式 ,在 过 滤 索 引文 件 名 称 的 输入 
框 中 填写 metricbeat-* 来 匹配 所 有 由 metricbeat 创建 的 索引 ,然后 在 下 面 的 Time-field 
name 中 选择 @timestamp , 单 击 Create index pattern 按钮 即 可 添加 metricbeat 的 相关 索引 
模式 ,如 图 9. 15 所 示 。 


Step 2 of 2: Configure settings 


You've defined metricbeat-* as your Index pattern. Now you can speclfy some settings 
before we create it. 


Time Filter fleld name Refresh 


@timestamp ~ 


The Time Filter will use this field to filter your data by time. 


You can choose not to have a time fleld, but you will not be able to 
narrow down your data by a time range. 


> Show advanced options 


《 Back 


图 9.15 添加 索引 模式 
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使 用 条 形 统计 图 ,面积 图 、 环 形 饼 图 和 标签 云 等 不 同 的 可 视 化 统计 图 表 , 对 索引 文件 中 
的 数据 指标 总 量 、 用 户 名 和 进程 状态 、 进 程 名 称 、 挂 载 设备 名 称 等 统计 信息 进行 可 视 化 展示 ， 
并 将 所 有 可 视 化 结果 添加 到 一 个 动态 仪表 板 中 。 图 9. 16 中 的 信息 表明 了 各 类 系统 运行 指 
标 数据 在 总 体 中 的 统计 量 和 占 比 ,其 中 左上 方 第 一 个 统计 数据 表示 采集 到 的 索引 文件 中 的 
系统 指标 总 数 ;, 中 间 上 方 统计 表 显 示 了 不 同 状态 的 用 户 产生 的 相关 数据 的 统计 数据 ;右上 方 
标签 去 反映 了 这 些 指 标 分 别 来 自 哪些 进程 ;下 方 左 侧 两 个 统计 图 反映 了 不 同文 件 以 及 不 同 
进程 所 产生 的 数据 指标 统计 ; 右 下 方 饼 图 则 是 对 不 同 设备 产生 的 数据 指标 比率 的 统计 。 


mewmebeat meme @ memicbeat mule | merneveat mgcloud 加 
System.process state: system.process.username: Count 
Descending = Descending = s 
二 可 计 etricheat 
node 
sleeping root ee i 
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了 Count 
runnng 四 1 
mm ， 
metricbeatLarea || metncbeat hbar | metncbeat ple device name 9 
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: | 
” | 
o E 
3 8 关 S 8 
Sstom Mesystem les Doscending count 


图 9.16 可 视 化 展示 
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9.4.1 概述 


winlogbeat 是 一 种 Windows 服务 程序 ,运行 于 Windows XP 及 以 后 版 本 的 操作 系统 
中 ,负责 向 Elasticsearch 或 Logstash 传送 Windows 事件 日 志 数 据 。winlogbeat 可 以 对 系 
统 中 的 新 事件 进行 监视 ,使 用 Windows API, 从 一 个 或 多 个 事件 日 志 中 读 取 数据 ,根据 用 户 
事先 配置 好 的 规则 对 事件 信息 进行 过 滤 , 然 后 将 事件 数据 传输 至 配置 好 的 输出 端 (如 
Elasticsearch 或 Logstash) 。 每 一 种 事件 日 志 的 读 取 位 置信 息 将 被 持久 化 到 磁盘 中 ,以 便 
winlogbeat 重新 启动 后 恢复 事件 日 志 位 置信 息 。winlogbeat 可 以 从 正在 运行 的 操作 系统 中 
捕获 任何 类 型 的 事件 数据 ,例如 应 用 程序 事件 、 硬 件 事件 、 安 全 性 事件 和 系统 事件 等 。 
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9.4.2 安装 


winlogbeat 是 运行 在 Windows 系统 中 的 服务 程序 。 安 装 winlogbeat 之 前 , 需 确保 在 
Windows 中 已 完成 Elastic Stack 相关 软件 产品 Elasticsearch、Logstash( 可 选 ) 和 Kibana 的 
安装 和 配置 。 首 先 ,访问 Elastic Stack 官网 中 的 winlogbeat 下 载 页 面 (相应 的 网 页 链接 为 
https://www. elastic. co/downloads/beats/winlogbeat) ,获取 winlogbeat 程序 的 ZIP 包 。 
此 时 用 户 需 要 根据 正在 使 用 的 ElasticStack 相关 软件 的 版 本 ( 即 Elasticsearch 等 程序 的 版 
本 ) 和 当前 Windows 系统 位 宽 ( 即 32 位 或 64 位 ) 来 获取 对 应 版 本 的 winlogbeat。 如 果 上 面 
的 链接 打开 的 页 面 中 提供 的 版 本 与 正在 使 用 的 版 本 不 对 应 ,那么 应 在 页 面 中 单 击 past 
releases 转 到 历史 版 本 获取 页 面 ,在 该 页 面 中 的 产品 名 称 和 版 本 下 拉 列 表 中 分 别 选择 
winlogbeat 和 对 应 的 版 本 号 (这 里 使 用 的 版 本 是 6. 2.4, 如 图 9. 17 所 示 )。 筛 选 出 对 应 版 本 
的 程序 后 , 单 击 右 侧 的 Download 按钮 ,并 选择 程序 位 宽 , 即 可 下 载 程序 ZIP 包 。 


Past Releases 


X clear AllFilters | Winlogbeat 


图 9.17 选择 对 应 版 本 的 winlogbeat 


下 载 ZIP 包 之 后 ,将 其 解压 到 C:\Program Files 目录 中 ,并 将 解压 之 后 的 目录 重 命名 
为 winlogbeat。 以 管理 员 身 份 运 行 Windows PowerShell 窗口 ,然后 即 可 在 其 中 执行 安装 命 
令 。PowerShell 拥有 “执行 策略 ”的 配置 ,默认 为 Restricted, 表 示 不 允许 任何 脚本 执行 , 包 
括 安装 winlogbeat 需要 执行 的 psl 文件 (微软 ,2017) 。 安 装 前 需要 修改 PowerShell 的 执行 
策略 以 允许 执行 脚本 命令 。 此 时 需要 在 PowerShell 窗口 中 执行 以 下 Set-ExecutionPolicy 
命令 将 执行 策略 改 为 UnRestricted, 即 允许 未 签名 的 脚本 运行 。 


Set- ExecutionPolicy ~ ExecutionPolicy UnRestricted 


修改 PowerShell 的 执行 策略 之 后 , 即 可 安装 winlogbeat。 执 行 下 面 的 命令 ,进入 存放 
winlogbeat 安装 文件 的 目录 ,并 执行 配置 文件 install-service-winlogbeat. psl 。 


cd ‘C:\Program FilesNWinlogbeat' 
.\install— service winlogbeat.pel 


出 于 系统 安全 性 考虑 ,在 完成 安装 之 后 ,应 执行 如 下 命令 将 PowerShell 的 执行 策略 改 
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回 默 认 的 Restricted : 
Set- ExecutionPolicy - ExecuticnPolicy Restricted 


winlogbeat 的 安装 过 程 如 图 9. 18 所 示 。 


管理 员 : Windows PowerShell 二 口 x 


LinkTD=13517[ 


图 9.18 安装 winlogbeat 服务 


如 果 当 前 使 用 的 操作 系统 是 Windows XP, 那 么 用 户 需要 事先 下 载 并 安装 
Windows PowerShell 程序 。 


9.4.3 配置 


winlogbeat 的 配置 文件 winlogbeat. yml 默认 保存 在 解压 后 的 C:\Program Files\ 
Winlogbeat 文件 夹 中 ,可 以 对 采集 事件 日 志 的 类 型 .输出 端 主机 地 址 和 输出 日 志 等 进行 配 
置 。 对 于 事件 日 志 类 型 ,配置 文件 中 默认 设置 了 Application、Security 和 System 3 种 类 型 ， 
如 代码 段 9.21 所 示 。 


代码 段 9.21: 事件 日 志 配置 
winlogbeat .event. logs: 

— name: Application 

— name: Security 

— name: System 


除 以 上 3 种 事件 日 志 类 型 之 外 ,还 可 以 在 配置 列表 中 添加 其 他 类 型 ,Windows 中 的 寻 
件 日 志 类 型 可 以 通过 执行 如 下 PowerShell 命令 来 查看 : 


Hi 


第 9 章 基于 Beats 的 数据 解析 传输 ‘299, 


Get- EventIog * 


命令 的 执行 结果 如 图 9. 19 所 示 , 图 中 最 右 列 Log 中 的 信息 即 为 可 用 的 事件 日 志 类 型 。 


国 管理 员 : Windows PowerShell 和 口 x 


ne 保留 所 有 权利 


图 9.19 获取 事件 日 志 列 表 


对 于 winlogbeat 向 外 传输 的 配置 ,代码 段 9. 22 演示 了 winlogbeat 向 Elasticsearch 传 
输 事 件 日 志 信 息 的 配置 ,其 中 以 数组 的 形式 提供 了 Elasticsearch 所 在 主机 IP 地 址 和 端口 号 
两 项 网 络 位 置信 


和 所,。 


代码 段 9.22: 传输 数据 到 Elasticsearch 的 配置 
utput .elasticsearch: 
hosts: ["localhost:9200"] 


如 果 需 要 设置 winlogbeat 向 Logstash 传输 数据 以 进行 对 数据 的 额外 处 理 ,可 以 在 配置 
文件 中 添加 代码 段 9. 23 所 示 的 配置 信息 ,在 数组 中 指定 Logstash 的 IP 地 址 和 端口 号 , 同 
时 将 代码 段 9. 22 所 示 的 向 Elasticsearch 输出 数据 的 配置 信息 注释 掉 即 可 。 


代码 段 9.23: 传输 数据 到 Logstash 的 配置 
output .logstash: 
hosts: ["127.0.0.1:5044"] 


‘ 
自动 加 载 模板 的 功能 仅 对 Elasticsearch 可 用 ,在 配置 winlogbeat 输出 事件 日 
志 数 据 到 Logstash 时 ,需要 手动 更 改 winlogbeat 的 索引 模板 配置 。 


对 于 输出 日 志文 件 的 配置 ,可 以 在 配置 文件 中 设 定 是 否 将 winlogbeat 生成 的 日 志 信 息 
输出 为 日 志文 件 , 输 出 日 志文 件 的 保存 路 径 , 日 志 信 息 记 录 的 级 别 等 配置 信息 。 代 码 段 9. 24 
演示 了 将 INFO 级 别 的 日 志 信 息 以 日 志文 件 的 形式 输出 到 C:\rogramData\winlogbeat\ 
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Logs 目录 的 方法 。 


代码 段 9.24: 输出 日 志 配 置 


logging.to files: true # 指 定 是 否 输出 日 志 到 文件 
logging.files: 

path: C:\ProgramData\winlogoeat\Iogs # 指 定 输出 日 志 的 位 置 
logging. level: info # 指 定 日 志 信息 为 EO 级 别 


日 志 一 般 分 为 5 个 级 别 : DEBUG INFO、WARN、ERROR 和 FATAL。 
DEBUG 用 于 调试 过 程 中 了 解 变量 的 值 等 信息 ,INFO 用 于 向 软件 用 户 输出 一 般 提示 信 
息 ,WARN 用 于 输出 警告 提示 信息 ,ERROR 用 于 输出 错误 提示 信息 ,FATAL 用 于 给 
出 严重 错误 提示 信息 。 


要 对 当前 配置 文件 中 的 配置 信息 进行 测试 ,可 以 在 PowerShell 窗口 中 执行 如 下 命令 : 
.\winlogbeat.exe test config - c .\winlogbeat.yml ~-e 


窗口 中 将 会 输出 关于 当前 配置 的 各 项 基本 信息 ,如 图 9. 20 所 示 。 


国 管理 员 : Windows PowerShell = 口 x 


ne 保留 所 有 权利 


图 9. 20 输出 当前 配置 文件 中 的 基本 信息 


winlogbeat 的 索引 模板 winlogbeat. template. json 默认 存放 在 解压 后 的 C:\Program 
Files\Winlogbeat 目录 中 ,在 输出 数据 到 Elasticsearch 的 功能 被 启用 的 情况 下 ,winlogbeat 
启动 时 会 自动 加 载 默认 的 模板 。 如 果 需 要 加 载 另 一 种 模板 , 则 需要 在 winlogbeat. yml 配置 
文件 中 修改 相关 配置 ,如 代码 段 9. 25 所 示 。 


代码 段 9.25: 修改 加 载 索 引 模 板 的 配置 信息 
output .elasticsearch: 
hosts: [mlocalhost:9200"] 
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template.name: "winlogbeatn 
template.fields: "C:\UsersNcyY\Documents\fields.ymln" 
tenmplate.overwrite: false 


如 果 Elasticsearch 索引 文件 中 已 经 存在 一 个 模板 ,那么 默认 不 允许 覆盖 已 有 的 模板 ， 
将 代码 段 9. 25 最 后 一 行 的 template. overwrite: false 修改 为 template. overwrite: true 即 
可 启用 覆盖 功能 。 要 手动 加 载 模板 的 功能 ,可 以 在 PowerShell 中 执行 代码 段 9. 26 所 示 的 
命令 。 


代码 段 9.26: 手动 加 载 索 引 模 板 功 能 

Imvoke - RestMethod - Method Put - ContentType "application/json" - InFile 
winlogbeat.template.json - Uri 
http://localhost:9200/_template/winlogbeat- 6.2.4 


代码 段 9. 27 所 示 的 命令 可 以 用 来 删除 旧 数据 ,并 以 此 来 强制 Kibana 在 可 视 化 过 程 中 
使 用 新 数据 。 


代码 段 9.27: 删除 索引 文件 中 的 旧 数 据 
Invoke - RestMethod - Method Delete "http://localhost:9200/winlogbeat- * " 


9.4.4 启动 和 关闭 

进入 winlogbeat 所 在 目录 ,在 PowerShell 窗口 中 使 用 如 下 命令 来 启动 winlogbeat: 

Start- Service winlogbeat 

启动 后 ,winlogbeat 即 开 始 从 预先 在 配置 文件 中 配置 好 的 位 置 获 取 日 志 信息 ,并 传输 到 
Elasticsearch 中 。 

winlogbeat 启动 后 ,可 以 在 PowerShell 窗口 执行 services. msc 命令 打开 Windows 服 
务 窗口 ,并 在 其 中 查看 winlogbeat 的 运行 状态 。 

从 图 9. 21 中 不 难看 出 , winlogbeat 服务 已 经 出 现在 服务 程序 列表 中 ,其 详细 属性 如 图 
9. 22 所 示 ,其 中 winlogbeat 的 服务 状态 显示 “正在 运行 ”。 


图 9.21 winlogbeat 出 现在 服务 程序 列表 中 


如 需 关 闭 winlogbeat, 可 以 在 PowerShell 窗口 执行 Stop-Service winlogbeat 命令 。 
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显示 人 名称: winlogbeat 

摘 述 : | 
可 执行 文件 的 路 径 : 

“CAProgram Files\winlogbeat-6.2.4-windows-x86 64\\winlogbeatexe" -< 
启动 关 型 (E): 自动 bd 
服务 状态 : 正在 运行 


HS *o | DR Na 


当 从 此 处 启动 服务 时 ， 你 可 指定 所 适用 的 启动 参数 . 


启动 参数 (V): 


C= | ™ | 


图 9.22 winlogbeat 服务 的 属性 


9.4.5 使 用 Kibana 进行 展示 


在 Kibana 的 Management 组 件 中 添加 一 个 新 的 索引 模式 ,在 过 滤 索 引文 件 名 称 的 输入 
框 中 填写 winlogbeat- * 来 匹配 所 有 由 winlogbeat 创建 的 索引 文件 ,然后 在 下 面 的 Time- 
field name 中 选择 @timestamp, 单 击 Create index pattern 按钮 , 即 可 添加 winlogbeat 相关 
索引 模式 ,如 图 9. 23 所 示 。 

使 用 条 形 统计 图 、 表 格 、 饼 图 、 统 计数 值 和 数据 表 等 不 同 的 可 视 化 统计 图 表 , 可 对 索引 文 
档 中 的 事件 日 志 总 量 、 日 志 中 反映 的 服务 启动 情况 、 事 件 来 源 、 事 件 类 型 等 统计 信息 进行 可 
视 化 展示 ,并 将 所 有 可 视 化 结果 添加 到 一 个 动态 仪表 板 中 。 图 9. 24 展示 了 Windows 系统 
中 各 类 事件 日 志 数 据 的 统计 情况 ,上 方 左 侧 的 条 形 图 反映 了 不 同时 间 段 系统 事件 日 志 记录 
数量 统计 ;上 方 中 间 的 数据 表 统 计 了 系统 事件 日 志 中 各 级 别 日 志 信息 的 数量 ;上 方 右 侧 的 统 
计数 值 表 示 事 件 日 志和 事件 编号 的 总 数 ; 下 方 的 3 个 饼 图 分 别 对 系统 安全 性 事件 .事件 日 志 
的 类 型 以 及 事件 来 源 各 部 分 的 比率 进行 了 统计 。 


@timestamp 


winlogbeat_vbar 


foog 


， Lu [| 


@timestamp per week 


winlogbeat_pie_task 


Time Fiker field name 


9 


> Show advanced options 


三 


Step 2 of 2: Configure settings 


You've defined winlogbeat-* as your index pattern. Now you can specify some settings 
before we create it. 


Refresh 


The Time Fiker will use this field to filter your data by time. 


You can choose not to have a time field, but you will not be able to 
narrow down your data by a time range. 


《 Back 


9.23 添加 索引 模式 


winlopbeat table 
level: pescending = count= 
信息 45227 
1756 
生生 1.376 
128 
38 
5 
winiogbeat_pie owname o 
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winlogbeat_metric 1 


9,276 


4,987 -Count 


4,154 


4644 -Count 


3,626 3,142 


4.642 .Count 16- Count 
2,024 
4.799 -Count 
winlogbeat_pie_sourcename 全 


© Microsofe Windoe 
Microcote Windows-.. 
Merocotr Windows.D. 
人 BTHU5B 

Evenilog 

和 Microsoft WindowsK., 


图 9.24 可 视 化 展示 
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95 基于 auditbeat 的 用 户 和 进程 活动 审计 


9.5.1 概述 


auditbeat 是 一 个 轻 量 级 的 数据 传输 工具 ,可 以 用 来 审计 系统 上 用 户 和 进程 的 活动 。 例 
如 ，auditbeat 可 以 从 Linux Audit Framework 收集 和 汇聚 审计 事件 ,还 可 以 检测 关键 文件 
(如 二 进 制 文件 和 配置 文件 ) 的 更 改 ,并 识别 潜在 的 安全 策略 违规 事件 。 


9.5.2 安装 和 配置 


安装 auditbeat 之 前 ,需要 确保 Elastic Stack 相关 软件 产品 Elasticsearch、Logstash( 可 
选 ) 和 Kibana 已 经 完成 安装 和 配置 。 在 终端 运行 下 面 第 一 个 命令 ,从 Elastic Stack 官网 获 
取 auditbeat 的 DEB 安装 包 ( 其 中 的 6. 2.4 是 版 本 号 )。 获 取 安 装 包 之 后 ,在 终端 执行 第 二 
个 命令 ,完成 解压 并 安装 auditbeat 。 

aurl -1 -oO https://artifacts.elastic.co/domnloads/beat's/auditbeat /auditbeat— 

6.2.4- armd64.deb 

sudo dpkg -i auditbeat— 6.2.4- amd64.deb 

程序 默认 保存 在 /etc/init.d 目录 下 ,其 配置 文件 auditbeat.yml 默认 保存 在 /etc/ 
auditbeat 目录 下 。 在 auditbeat. yml 配置 文件 中 ,可 以 对 模块 (module) 进 行 定制 ,以 收集 特 
定 的 指标 数据 ,在 每 一 个 模块 中 均 定义 了 一 个 指标 集 。 代 码 段 9. 28 演示 了 使 用 文件 完整 性 
模块 采集 来 自 服务 器 系统 中 多 个 目录 的 相关 统计 信息 的 方法 。 


代码 段 9.28: 为 aucitbeet 配 置 file integrity 模 块 
auditbeat.mpdules: 
-mdule: file integrity 

Paths: 


如 果 要 让 auditbeat 将 数据 送 入 Elasticsearch, 可 以 在 auditbeat. yml 中 添加 代码 段 9. 29 所 
示 的 配置 信息 ,指定 Elasticsearch 的 IP 地 址 和 端口 号 。 如 果 Elasticsearch 已 经 启用 了 
X-Pack 的 Security 机 制 , 则 需要 在 配置 中 加 入 身份 验证 信息 。 
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代码 段 9.29: 配置 auditbeat 输出 到 Elasticsearch 


hosts: ["ocalhost:9200"] # 指 定 卫 地 址 和 端口 号 
Username: "elastic" # 指 定 用 户 名 
Password: "elasticn # 指 定 对 应 的 密码 


auditbeat 的 索引 模板 fields. yml 默认 存放 在 /etc/auditbeat 文件 夹 中 ,在 输出 数据 到 
Elasticsearch 的 功能 被 启用 的 情况 下 ,auditbeat 启动 时 会 自动 加 载 默认 的 模板 。 如 果 要 加 
载 另 一 种 模板 , 需 在 auditbeat. yml 配置 文件 中 修改 相关 配置 ,如 代码 段 9. 30 所 示 。 


代码 段 9.30: 修改 加 载 索引 模板 的 配置 信息 
utput .elasticsearch: 
hosts: ["localhost:9200"] 
template.name: "aunditbeat" 
template. fields: "/home/cy/fields.yml" 
tenplate.overwrite: false 


如 果 Elasticsearch 索引 文件 中 已 经 存在 一 个 模板 ,默认 不 允许 覆盖 已 有 的 模板 。 将 代 
码 段 9. 30 最 后 一 行 的 template. overwrite: false 修改 为 template. overwrite: true, 即 可 启 
用 覆盖 功能 。 要 手动 加 载 模板 的 功能 ,可 以 在 终端 执行 代码 段 9. 31 所 示 的 curl 命令 。 


代码 段 9.31: 手动 加 载 索 引 模板 功能 
curl - XEUT -H 'Content- Type: application/json' http://localhost:9200/ 
_temrplate/auditbeat- 6.2.4 -d auditbeat.terplate.json 


代码 段 9. 32 所 示 的 命令 可 以 用 来 删除 旧 数 据 , 并 以 此 来 强制 Kibana 在 可 视 化 过 程 中 
使 用 新 数据 。 


代码 段 9.32: 删除 索引 文件 中 的 旧 数 据 
curl ~ XDETETE "http://localhost:9200/auditbeat- *' 


9.5.3 启动 和 关闭 
在 终端 中 使 用 如 下 命令 来 启动 auditbeat: 
Suqop service auditbeatstart 


启动 后 ,终端 界面 将 会 输出 如 图 9. 25 所 示 的 日 志 信息 。 
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图 9.25 启动 auditbeat 


auditbeat 启动 后 , 即 开始 采集 服务 器 端 操作 系统 或 服务 程序 的 相应 数据 指标 并 传输 到 
Elasticsearch 中 。 此 时 可 以 执行 代码 段 9. 33 所 示 的 curl 命令 ,验证 服务 器 端的 统计 数据 是 
否 已 被 传输 到 Elasticsearch 中 。 


代码 段 9.33: 测试 auditbeat 的 采集 和 传输 功能 
curl -H 'Content- Type: application/json' - XGET ‘http://localhost:9200/ 
auditbeat— * /_search3?pretty" 


如 需 关闭 auditbeat, 可 以 在 终端 执行 如 下 命令 : 
Sudo service auditbeat stop 


此 时 终端 界面 将 输出 如 图 9. 26 所 示 的 日 志 信 息 。 


图 9.26 关闭 auditbeat 


9.5.4 使 用 Kibana 进行 展示 


在 Kibana 的 Management 组 件 中 添加 一 个 新 的 索引 模式 ,在 过 滤 索 引文 件 名 称 的 输入 
框 中 填写 auditbeat-x 来 匹配 所 有 由 auditbeat 创建 的 索引 ,然后 在 下 面 的 Time-field name 
中 选择 @timestamp , 单 击 Create index pattern 按钮 , 即 可 添加 auditbeat 相关 索引 模式 ,如 
图 9. 27 所 示 。 

使 用 条 形 统计 图 、 统 计数 值 . 饼 图 和 表格 等 不 同 的 可 视 化 统计 图 表 , 对 索引 文档 中 的 数 
据 指标 总 量 、 时 间 分 布 事 件 序 列 号 、 文 件 大 小 等 统计 信息 进行 可 视 化 展示 ,并 将 所 有 可 视 化 
结果 添加 到 一 个 动态 仪表 板 中 。 图 9. 28 中 的 信息 表明 了 各 类 系统 进程 相关 指标 数据 在 总 
体 中 的 统计 量 和 比率 ,其 中 ,左上 方 的 统计 数据 表示 在 索引 中 存储 的 进程 指标 数据 按时 间 分 
布 的 情况 ,右上 方 的 统计 数值 显示 了 索引 中 已 采集 到 的 数据 总 量 ,左下 方 的 饼 图 展示 了 在 当 
前 查看 的 时 间 段 内 由 系统 分 配 的 事件 序列 号 数据 比率 ; 右 下 方 的 表格 则 对 不 同文 件 尺寸 数 
据 指标 进行 了 统计 。 
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Step 2 of 2: Configure settings 


Youve defined auditbeat-* as your index pattern. Now you can specify some settings before 


we create Kt. 
Time Fikter field name Refresh 


@timestamp bd 


The Time Filter will use this field to filter your data by time. 


You can choose not to have a time field, but you will not be able to 
narrow down your data by a time range. 


> Show advanced optlons 


9.27 添加 索引 模式 


auditbeat_vbar © || auditbeat_metric 
«00 
9 
300 
20 
ww [4 
Count 
003240 003250 003300 
etimestamp per second 
auditbeat_ple © || auditbeat table 
5 file.size: Descending $ Counts 
10,384 24 
10,392 19 
10,400 18 
10,376 13 
10,232 10 


图 9.28 可 视 化 展示 
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96 及 于 heartbeat 的 服务 状态 检测 


9.6.1 概述 


heartbeat 是 一 个 轻 量 级 守护 程序 ,可 以 安装 在 远程 服务 器 上 ,定期 检查 服务 状态 并 确 
定 其 是 否 可 用 。 与 metricbeat 仅 可 以 表明 服务 器 启 停 的 特性 不 同 ,heartbeat 会 体现 出 服务 
是 否 可 访问 。 在 应 用 场景 上 ,heartbeat 可 以 验证 服务 正常 运行 的 服务 级 别 协议 ,验证 外 部 
无 法 访问 私有 企业 服务 器 上 的 服务 ,以 及 检查 所 有 负载 平衡 的 服务 是 否 可 用 ,等 等 。 
heartbeat 以 监视 器 为 单位 运行 ,每 个 监视 器 都 会 根据 配置 文件 指定 的 计划 运行 。 


9.6.2 安装 和 配置 


安装 heartbeat 之 前 ,需要 确保 Elastic Stack 相关 软件 产品 Elasticsearch、Logstash( 可 
选 ) 和 Kibana 已 经 完成 安装 和 配置 。 在 终端 运行 下 面 第 一 个 命令 ,从 Elastic Stack 官网 获 
取 heartbeat 的 DEB 安装 包 ( 其 中 的 6.2.4 是 版 本 号 )。 获 取 安 装 包 之 后 ,在 终端 执行 第 二 
行 命令 ,完成 解压 并 安装 heartbeat。 

curl -L -0 https://artifacts.elastic.co/downloads/beats/heartibeat/hearthbeat— 


6.2.4- amd64.deb 
sudo dpkg - i heartbeat- 6.2.4- amd64.deb 


程序 默认 保存 在 /etc/init. d 目录 下 ,其 配置 文件 heartbeat. yml 默认 保存 在 /etc/ 
heartbeat 目录 下 。 在 heartbeat. yml 配置 文件 中 可 以 对 监视 器 (monitors) 模 块 进行 配置 来 
确认 一 台 远 程 主机 的 运行 状态 。 对 于 不 同 的 主机 ,可 以 添加 不 同 的 配置 。 代 码 段 9. 34 演示 
了 分 别 以 ICMP 和 TCP 方式 来 监视 远程 主机 运行 状态 的 配置 。 其 中 的 schedule 参数 指定 
了 访问 的 频率 ,mode 参数 指定 了 IP 解析 的 方式 。 


代码 段 9.34: 为 Heartbeat 配置 mcnitors 模块 
heartbeat .monitors: 
-type: iam 
schedule: ' /1 类 关 关 关 关 ! # 每 Imin 一 次 
hosts: ["inyhost"] 
-type: tcp 
schedule: '@ every 55' # 每 5 一 次 ,这 里 使 用 了 @ every 关 键 字 
hosts: ["myhost:12345"] 
mode: any # 只 需 解析 到 任 一 可 用 王 地 址 即 可 
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上 述 配置 信息 中 的 schedule 参数 使 用 了 cronexpr 表达 式 ( 其 全 称 为 golang cron 
expression parser, 该 表达 式 包含 7 个 字段 .以 空格 隔 开 ,分 别 为 秒 . 分 .时 .日 .月 周 、. 年 ,其 
中 的 分 时、 日 月. 周 为 必 选 字段 ) 来 对 cron 表达 式 进行 解析 ,用 来 表达 某 种 任务 执行 的 频 
率 。cronexpr 各 字段 的 详细 说 明 如 表 9. 1 所 示 。 

表 9.1 cronexpr 各 字段 详细 说 明 


字段 名 称 是 否 必 选 有 效 范 围 取 值 有 效 特 殊 字 符 
秒 否 0~59 Pe 
分 是 0~59 I 
时 是 0~23 第- 让 二 
日 是 1 一 下 */,-LW 
月 是 1~12 或 JAN~DEC # /,- 
周 是 0~6 或 SUN~SAT * /，- 工 井 
年 否 1970~2099 * /,- 


表格 最 后 一 列 所 述 特殊 字符 的 含义 如 下 : 

。 星 号 (* ): 表示 cron 表达 式 匹配 字段 的 所 有 值 。 例 如 ,在 第 4 个 必 选 字段 (月 ) 中 使 
用 星 号 表示 每 个 月 。 

和 斜 线 (/) : 描述 范围 的 增 量 。 例 如 ,分 字段 中 的 3-59/15 表示 每 个 小 时 的 第 3 分 钟 之 
后 每 15min。 

逗号 (,): 用 于 分 隔 同一 字段 中 的 多 个 项 目 。 例 如 ,在 第 5 个 必 选 字段 ( 周 ) 中 使 用 
“MON ,WED,FRI” 表 示 星 期 一 、 星 期 三 和 星期 五 。 

连 字 符 (-): 定义 范围 。 例 如 ,2016-2018 表明 年 份 从 2016 年 至 2018 年 ,包含 边 
界 值 。 

L: 代表 最 后 (last) 。 当 在 周 字 段 中 使 用 时 , 它 允 许 用 户 指 定 诸如 “上 周 五 ”(5L) 之 类 
的 条 件 。 在 日 期 字段 中 , 它 指定 该 月 的 最 后 一 天 。 

W: 用 于 日 期 字段 ,指定 最 接近 给 定 日 期 的 工作 日 (周一 至 周 五 )。 例 如 ,如 果 指 定 
15W 作为 日 期 字段 的 值 , 则 含义 为 距离 当月 15 日 最 近 的 工作 日 。 如 果 15 日 是 星期 
六 ,触发 器 将 在 14 日 (星期 五 ) 被 触发 ;如 果 15 日 是 星期 日 ,触发 器 将 在 16 日 (星期 
一 ) 被 触发 ;如 果 15 日 是 星期 二 ,那么 它 将 在 15 日 当天 被 触发 ;但 是 如 果 指 定 1W， 
并 且 该 月 1 日 为 星期 六 , 则 触发 器 将 在 3 日 (星期 一 ) 被 触发 ,因为 它 不 会 跨越 不 同 
月 份 的 边界 。 需 要 注意 的 是 , 当 且 仅 当 指定 的 日 期 为 单独 的 一 天 (而 不 是 一 个 连续 
的 日 期 范围 或 某 些 特定 日 期 的 列表 ) 时 ,才能 使 用 W 字符 。 它 也 可 以 与 工 组 合 , 即 
LW 表示 该 月 的 最 后 一 个 工作 日 。 
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。 哈 希 (#): 用 于 构建 表示 * 某 月 的 第 几 周 的 星期 几 ” 的 表达 式 ,# 后面 必须 跟 数字 
1 一 5。 例 如 ,5#2 表示 某 月 的 第 二 个 星期 五 。 
如 果 让 heartbeat 将 数据 送 入 Elasticsearch ,可 以 在 heartbeat. yml 中 添加 代码 段 9. 35 
所 示 的 配置 信息 ,指定 Elasticsearch 的 IP 地 址 和 端口 号 。 如 果 Elasticsearch 已 经 启用 
X-Pack 的 Security 机 制 , 则 需要 在 配置 中 加 入 身份 验证 信息 。 


代码 段 9.35: 配置 heartbeat 输出 到 Elasticsearch 
output .elasticsearch: 


hosts: ["ocalhost:9200"] # 指 定 IP 地 址 和 端口 号 


# 指 定 用 户 名 
# 指 定 对 应 的 密码 


Username: "elastic" 


Password: "elastic" 


heartbeat 的 索引 模板 fields. yml 默认 存放 在 /etc/heartbeat 文件 夹 中 ,在 输出 数据 到 
Elasticsearch 的 功能 被 启用 的 情况 下 ,heartbeat 启动 时 会 自动 加 载 默认 的 模板 。 如 果 要 加 
载 另 一 种 模板 , 需 在 heartbeat. yml 配置 文件 中 修改 相关 配置 ,如 代码 段 9. 36 所 示 。 


代码 段 9.36: 修改 加 载 索 引 模板 的 配置 信息 
utput .elasticsearch: 
hosts: ["localhost:9200"] 
template.name: "heartbeat" 
template. fields: "/hame/cy/fields.yml" 
template.overwrite: false 


如 果 Elasticsearch 索引 中 已 经 存在 一 个 模板 ,默认 不 允许 覆盖 已 有 的 模板 。 将 代码 段 
9. 36 最 后 一 行 的 template. overwrite: false 修改 为 template. overwrite: true, 即 可 启用 获 
盖 功 能 。 要 手动 加 载 模板 的 功能 ,可 以 在 终端 执行 代码 段 9. 37 所 示 的 curl 命令 。 


代码 段 9.37: 手动 加 载 索 引 模 板 功 能 
curl - H 'Content— Type: application/json' - XEUT 'http://localhost:9200/ 
_template/heartbeat — d @ /etc/heartbeat/heartbeat.template.json 


代码 段 9. 38 所 示 的 命令 可 以 用 来 删除 旧 数 据 ,并 以 此 来 强制 Kibana 在 可 视 化 过 程 中 
使 用 新 数据 。 


代码 段 9.38: 删除 索引 文件 中 的 旧 数 据 


curl ~ XIEIETE "http://localhost:9200/heartbeat- * ' 
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9.6.3 启动 和 关闭 
在 终端 中 使 用 如 下 命令 来 启动 heartbeat: 
audb service heartheat— elastic start 


终端 界面 将 会 输出 如 图 9. 29 所 示 的 日 志 信 息 。 


图 9. 29 启动 heartbeat 


heartbeat 启动 后 , 即 开 始 采集 服务 器 端 操 作 系 统 或 服务 程序 的 相应 数据 指标 并 传输 到 
Elasticsearch 中 ,此 时 可 以 执行 代码 段 9. 39 所 示 的 curl 命令 ,验证 服务 器 端的 统计 数据 是 
否 已 被 传输 到 Elasticsearch 中 。 


代码 段 9.39: 测试 heartbeet 的 采集 和 传输 功能 
curl -H 'Content- Type: application/json' - XEET ‘http://localhost:9200/ 
heartbeat- * /_search?pretty' 


如 需 关 闭 heartbeat ,可 以 在 终端 执行 如 下 命令 : 
sudo service heartbeat- elastic stcp 


此 时 终端 界面 将 输出 如 图 9. 30 所 示 的 日 志 信息 。 


图 9. 30 关闭 heartbeat 


9.6.4 使 用 Kibana 进行 展示 

在 Kibana 的 Management 组 件 中 添加 一 个 新 的 索引 模式 ,在 过 滤 索 引文 件 名 称 的 输入 
框 中 填写 heartbeat-x 来 匹配 所 有 由 heartbeat 创建 的 索引 文件 ,然后 在 下 面 的 Time-field 
name 中 选择 @timestamp , 单 击 Create 按钮 即 可 添加 heartbeat 的 相关 索引 模式 ,如 图 9. 31 
所 示 。 

使 用 条 形 统计 图 、 热 力图 、 饼 图 和 统计 数值 等 不 同 的 可 视 化 统计 图 表 , 对 索引 文件 中 的 
数据 指标 总 量 、 传 输 时 延 统计 、 访 问 方式 .各 种 方式 访问 数量 等 统计 信息 进行 可 视 化 展示 ,并 
将 所 有 可 视 化 结果 添加 到 一 个 动态 仪表 板 中 。 图 9. 32 中 的 信息 表明 了 各 类 系统 运行 指标 
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Step 2 of 2: Configure settings 


You've defined heartbeat-* as your index pattern. Now you can specify some settings before 


we create 比 
Time Flterfield name Refresh 
@timestamp v 


The Time Filter will use this fleld to filter your data by time. 


You can choose not to have a time field, but you will not be able to 
narrow down your data by a time range 


> Show advanced options 


Sh EYE 


图 9.31 添加 索引 模式 


heartbeat-vbar 妇 heartbeat-heatmap 从 
将 
@ 所 @ 
5 
4 EF 
8 
3 3 
兰 站 
3 旺 
己 
1 三 
0 E 加 a . py 
23:30:00 23:35:00 23:40:00 234500 235000 3 4 3 
etimestamp per 30 seconds tcp.rtt.connect us: Descending 
heartbeat-ple 人 heartbeat-metric 六 
@tcp Oicmp 
° 134 
tcp-tcp@172.16.1.162:8080 - Count 
icmp-icmp-ip@172.16.1.12 - Count 


图 9.32 可 视 化 展示 


数据 在 总 体 中 的 统计 量 和 比率 ,其 中 .左上 方 的 条 形 图 展示 了 远程 主机 状态 获取 量 按 时 间 分 
布 情况 ,右上 方 的 热力 图 表示 两 种 传输 时 延 的 相对 数量 关系 ,左下 方 的 饼 图 反映 了 两 种 不 同 
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方式 网 络 请 求 的 比率 , 右 下 方 的 数值 统计 出 了 两 种 方式 请 求 的 具体 数量 。 
97 扩展 知识 与 阅 请 


系统 运行 数据 的 内 容 从 侧面 反映 了 服务 器 在 运行 时 软件 层面 上 的 基本 状况 。 对 运行 数 
据 的 查询 和 分 析 是 运 维 的 一 个 重要 组 成 部 分 。 当 前 众多 对 外 提供 服务 的 应 用 系统 均 对 其 软 
件 层面 实施 各 种 优化 和 均衡 策略 , 旨 在 将 程序 以 最 轻 量 上 且 高 效 的 形式 运行 ,同时 平衡 软 硬 件 
系统 中 各 部 分 的 负载 ,以 防止 出 现 性 能 方面 的 故障 (甚至 服务 器 不 堪 重负 ,出 现 宕 机 等 严重 
问题 ) ,因此 ,对 运行 数据 进行 监控 就 显得 非常 必要 。ElasticStack 官方 针对 这 方面 提出 的 解 
决 方案 便 是 Beats, 其 显著 优点 在 于 成 体系 和 全 自动 。Beats 中 各 类 数据 传输 工具 全 部 基于 
libbeat 平台 ,与 Elastic Stack 系列 产品 无 颖 对 接 。 此 外 ,Beats 工具 一 经 安装 配置 ,可 以 在 
完全 无 人 值守 的 条 件 下 执行 ,直接 存储 相关 数据 ,使 得 用 户 可 以 轻松 掌握 软件 层次 的 各 种 数 
据 指标 ,及 时 应 对 软件 方面 的 问题 。 


98 本 章 人 小 结 


本 章 对 Beats 组 件 中 的 6 种 通用 数据 传输 工具 的 安装 ,配置 .使 用 和 可 视 化 方法 进行 了 
介绍 。 通 过 对 本 章 内 容 的 了 解 和 实践 ,可 以 实现 对 服务 器 端 网 络 数据 包 收发 情况 日志 数据 
信息 、 系 统 运行 状态 和 指标 .Windows 系统 中 事件 日 志 信息 .用 户 和 进程 活动 信息 、 远 程 主 
机 运行 状态 信息 等 数据 的 采集 、 解 析 和 传输 。 通 过 Elasticsearch 分 布 式 搜索 引擎 进行 存储 
和 检索 ,并 利用 Kibana 进行 各 类 数据 的 可 视 化 展示 。Beats 的 应 用 可 以 使 用 户 对 系统 中 正 
在 春 吐 的 各 种 数据 信息 有 宏观 上 的 把 握 ,这 在 使 用 X-Pack 进行 应 用 系统 层面 监控 的 同时 ， 
提供 了 另 一 种 不 同 的 监控 视角 ,有 利于 用 户 及 时 从 数据 层面 了 解 当前 系统 性 能 演变 趋势 ,更 
加 有 效 而 全 面 地 实现 对 系统 整体 数据 指标 的 评价 和 分 析 。 


第 .10' 意 oa 


信息 检索 与 分 析 实 例 ( 一 ) 


Get insight into how various organizations are using elastic stack products to 
tackle a growing number of use cases. Symantec: Successfully switched from 
solr to Elasticsearch with Elastic Support; USAA: securing USAA's entire 
internal network and application portfolio( continued) . 


https://www. elastic. co/use-cases 


随 着 大 数据 、 大 型 综合 网 站 以 及 Web 2.0 技术 的 普及 , 越 来 越 多 的 软件 开发 者 需 处 理 
海量 异 构 信息 的 索引 检索 ,日 志 挖 掘 \、 可 视 化 等 和 信息 检索 与 大 数据 挖掘 相关 的 业务 。 本 
章 给 出 使 用 Elasticsearch、Logstash、Kibana 针对 动态 网 页 内 容 的 信息 检索 与 应 用 实例 。 结 
合 某 行 业 需求 ,给 出 如 何 对 行业 案例 进行 存储 优化 的 方案 (后 台 使 用 了 Java Web 框架 
Spring Boot ,前 端 使 用 Layui 和 jQuery 框架 ,通过 Ajax 进行 前 后 端 数据 交互 ) ,对 Web 检 
索 端 的 设计 和 后 台 日 志 输 出 .日 志和 行业 案例 的 可 视 化 分 析 等 内 容 进行 叙述 ,给 出 针对 相似 
案例 和 规章 制度 的 检索 与 分 析 。 
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Elasticsearch 可 以 以 JSON 格式 存储 数据 ,每 个 字段 类 型 都 有 相应 的 规则 。 存 储 数据 
时 ,需要 按照 对 应 的 字段 类 型 存储 ,以 方便 后 期 维护 和 索引 分 析 。 这 里 所 使 用 的 数据 经 过 了 
脱 敏 处 理 (后 文中 以 机 房管 理 规章 制度 为 示例 ,相关 示例 文本 是 从 网 络 公开 内 容 收 集 来 的 ， 
仅 用 于 本 章 的 示例 分 析 。 示 例文 本 内 容 分 为 两 个 部 分 ,一 部 分 为 故障 案例 , 另 一 部 分 为 行业 
的 部 分 规章 制度 ) 。 


10.1.1 环境 准备 


安装 Elastic Stack 的 相关 软件 如 Elasticsearch、Logstash 和 Kibana ,并 为 Elasticsearch 
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/了 


安装 中 文 分 词 器 (如 IK , 详 见 第 2 章 ) 。 在 工程 方面 ,需要 事先 配置 好 Java 环境 和 Maven 项 


目 管理 工具 。 
10.1.2 数据 准备 


行业 故障 案例 包含 两 个 字段 : 发 生 时 间 和 详情 内 容 ,如 图 10. 1 所 示 。 对 于 发 生 时 间 的 
存储 ,可 使 用 date 类 型 ,并 设置 格式 化 形式 为 yyyy-MM-dd; 详 情 内 容 则 设置 为 text 类 型 ， 
并 设置 Analyzer 为 IK 分 词 器 的 最 大 匹配 模式 。 有 关 索 引文 件 的 创建 和 映像 的 设置 方法 参 


见 代码 段 10. 1 。 


房 ，UPS 技 二 


2617 年 12 月 18 日 3 时 59 分 | 某 客 户 营业 厅 使 用 单 进 单 出 的 16kVAUPS, 后 端 负载 为 交换 机 、 人 台式 电脑 、 液晶 屏 
图 10.1 行业 故障 案例 部 分 的 数据 


代码 段 10.1: 创建 行业 故障 案例 的 索引 文件 和 类 型 的 映像 
curl -日 'Content- Type: application/json' - XEFUT localhost:9200/case/ mapping/ 


"properties": { 
"content": { 
"type": "text", 
"analyzer": "ik max word" 
bh 
"date": { 
"type": "date", 
"fomat": "YYYY- MM- dd" 


} 


_doc -dt # 定 义 索 引文 件 名 称 为 case 


行业 规章 制度 部 分 的 数据 如 图 10. 2 所 示 。 


为 方便 索引 和 定位 ,将 每 个 章节 和 规则 条 目 使 用 正则 表达 式 进 行 匹配 ,以 便 分 割 并 提取 
其 中 的 章节 标题 等 。 本 例 中 ,文件 内 容 可 整理 成 5 个 字段 , 即 规章 制度 的 文件 名 (docName)、 


章节 标题 (chapterTitle) 、 章 节 序号 (chapter) 、 条 目 序 号 (article) .内容 Ccontext) 。 


对 于 这 些 


字段 ,都 将 其 设置 为 text 类 型 ,并 设置 Analyzer 为 IK 分 词 器 的 最 大 匹配 模式 ,其 索引 文件 


的 创建 和 映像 的 设置 方法 见 代码 段 10. 2。 
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出 入 管理 

机 房 钥 匙 专人 保管 

外 单位 维护 人 员 需 要 进入 机 房 工作 的 ， 需 首先 填写 登记 胡 ， 并 在 机 房 工作 人 员 陪 同 下 进入 机 房 - 
参观 人 员 需 事先 联系 ， 并 得 到 中 心 主任 批准 ， 才 能 在 工作 人 员 陪同 下 进入 机 房 - 

严禁 无 关 人 员 进 入 机 房 . 

进入 机 房 应 遵守 机 房管 理 制度 并 听从 机 房 工 作 人 员 指 导 . 

进入 机 房 不 得 携带 任何 易 燃 、 易 爆 、 腐 蚀 性 、 强 电磁 、 辐 射 性 、 流 体 物质 等 对 设备 正常 运行 构成 


操作 管理 
UPS 电 源 是 保证 网 络 机 房 、 数 据 机 房 内 设备 正常 运行 和 数据 安全 的 重要 设备 ， 除 管理 员外 ， 未 经 


管理 员 要 了 解 UPs 电 源 的 工作 原理 ， 正 确 区 分 使 用 UPs 电 源 供电 插座 和 市 电 供电 插座 ， 不 得 在 UPs 
定期 对 ups 电源 充 放电 。 当 市 电 不 停 时 ， 应 每 3 个 月 对 UPs 电 源 的 电池 组 进行 一 次 维护 性 放电 -。 
在 值班 期 间 ， 值 班 人 员 发 现 Ups 电 源 有 异常 情况 要 及 时 报告 管理 员 ， 并 采取 适当 应 急 处 理 措施 - 


图 10.2 行业 规章 制度 部 分 的 数据 


代码 段 10.2: 创建 行业 规章 制度 的 索引 文件 和 类 型 的 映像 
curl - H 'Content- Type: application/json' - XEUT localhost:9200/doc/ mapping/rule -d { 
# 定 义 索 引文 件 名 称 为 doc 
"properties": { 
"docName": { 
"type": "text", 
"analyzer": "ik max word", 
"search analyzer": "ik max word", 
"poost": 2 
», 
"chapterTitle": { 
"type": "text", 
"analyzer": "ik max word", 
"search analyzer": "ik max word" 


"chapter": { 
"type": "text", 
"analyzer": "ik max word", 
"search analyzer": "ik max word" 
hb, 
"article": 
type": "text", 
"analyzer": "ik max_ word", 
"search analyzer": "ik max word" 


"Ee “bent, 


第 10 章 信息 检索 与 分 析 实例 ( 一 ) “317) 


102 及 于 Spring Boot 的 信息 检索 及 Web 喘 设 计 

本 节 介 绍 信息 检索 及 Web 端 设 计 。 后 台 框 架 使 用 Spring Boot ,前 端 使 用 layui 框架 和 
jQuery 。 
10.2.1 创建 和 配置 工程 


创建 项 目 , 在 弹出 的 新 建 项 目 窗口 中 选中 Spring Initializr 并 单 击 下 一 步 ,如 图 10. 3 所 
示 。 按 要 求 填写 工程 的 基本 信息 , 即 可 自动 生成 Spring Boot 的 工程 结构 。 需 要 注意 的 是 ， 
在 第 三 步 选择 依赖 时 须 勾 选 Web, 如 图 10.4 所 示 , 其 他 选项 可 视 情 况 而 定 。 


昨 J2ME Project SDK: | Be 1.8 Gava version "1.8.0 31") v| | New- 
Clouds Choose Initializr service URL 

明 Spring 
Ws Java FX 
虽 Android © Custom: v| 克 


图 Default https//startspringio 


元 


(EE Intell Platform Plugin Make sure your network connection is active before continuing. 


M Maven 
(© Gradle (Kotin DsU 
© Gradle 


Groow 

加 Griffon 

© Grails 

© Application Forge 


图 10.3 新 建 项 目 窗口 


由 于 使 用 Maven 构建 工程 ,所 以 在 导入 其 他 依赖 JAR 包 时 ,也 选择 使 用 Maven 进行 导 
入 。 工程 还 需要 导入 其 他 一 些 第 三 方 JAR 包 。 这 里 使 用 的 是 Elasticsearch 6. 2. 3 的 Java 
客户 端 (具体 版 本 号 可 根据 实际 情况 更 改 ) 以 及 Alibaba 推出 的 fastjson 工具 。 视 情况 需要 
修改 pom. xml 文件 ,如 代码 段 10. 3 所 示 。 
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Dependencies |Q UL | Spring Boot [294 
Core 回 web 
口 Reactive web | 
Template Engines 口 Rest Repositories | 
SQL 口 Rest Repositories HAL Browser 
NosQL 口 HATEOAS 
Ia 口 web Services 
Cloud Core 口 Jersey UAX-RS) 
口 websocket 
口 REST pocs 
口 vaadin 
口 Apache CXF UAX-RS) 

Ratpack 

Mobile 


Cloud Support 
Cloud Config 
Cloud Discovery 


Cloud Routing 

Cloud Circuit Breaker 
cloud Tracing 

Cloud Messaging 
Cloud AWS 

Cloud Contract 
Pivotal Cloud Foundry 
Azure 

Spring Cloud GCP 
vo 


图 10.4 项 目 依赖 选择 


代码 段 10.3: 使 用 Maven 构 建 工程 所 需 BR 包 
ee 
< dependency> 
< groupId> org.elasticsearch.client< /groupId> 
< artifactId> transport< /artifactId> 
< version> 6.2.3 /version> 
< /dependency> 
< dependency> 
< groupId> org.elasticsearch< /groupId> 
< artifactId> elasticseard /artifactId> 
< version> 6.2.3< /version> 
< /dependency> 
< dependency> 
< groupId> org.elasticsearch.plugin< /groupId> 
< artifactId> transport— netty4- client< /artifactId> 
< version> 6.2.3< /version> 
< /dependency> 
<!-— fastjson --> 
< dependency> 
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< groupId> com.alibaba< /groupId> 
< artifactId> fastjson< /artifactId> 
< version> 1.2.47< /version> 

< /dependency> 


pom. xml 编辑 好 后 ,IDE 环境 (如 Intellij IDEA) 会 自动 下 载 新 添加 的 JAR 包 。 若 没有 
自动 导入 , 则 需要 在 Intellij IDEA 中 打开 pom. xml, 右 击 该 文件 ,在 快捷 菜单 中 选择 Maven 一 
Reimport 命令 ,可 重新 导入 工程 所 需 JAR 包 。 


2 
使 用 Spring Boot 最 大 的 优点 是 通过 较 少 的 配置 即 可 实现 丰富 的 功能 。 它 内 


置 Tomcat 服务 器 ,运行 时 只 需 将 工程 导出 为 JAR 包 , 直 接 运 行 即 可 。 


配置 上 述 文件 后 ,整个 项 目的 文件 结构 如 图 10. 5 所 示 。 


Y 和 src 
Y Mmain 


v Mjava 
Y Bcomdemo 
Y 加 esuUiils 
@ Elasticsearchclientutil 
®@ ElasticsearchindexUtils 
@ ElasticsearchQueryUtils 
Y 加 service 
@ EsQuerySevice 
> Butils 
Y Bweb 
®@ CaseControler 
@ WeblLogAspect 
蒋 CaseApplication 
> 名 META-INF 
v Beresources 
> Pn staticlayui 
Y Btemplates 
庆 query.html 
克 application.yml 


图 10.5 项 目的 文件 结构 


10.2.2 Web 页 面 设计 


在 src/main/java/com/demo 目录 下 创建 Elasticsearch 的 工具 类 , 它 主要 用 于 创建 客户 
端 以 及 执行 查询 语句 ( 见 代 码 段 10. 4)。 为 简单 起 见 , 客 户 端 的 创建 使 用 单 例 模式 。 
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代码 段 10.4: Elasticsearch 工 具 类 
import org.elasticsearch.action.search.SearchResponsey 
jimport org.elasticsearch.action.search.SearchType; 
jimport org.elasticsearch.client.transport.TransportClient; 
jimport org.elasticseardh.oqmon.settings.Settings; 
jmport org.elasticsearch.search.SearchHit7 
import org.elasticsearch.search.SearchHitsy 
import org.elasticsearch.index.query.QueryBuilder; 
jimport org.elasticsearch.transport.client.PreBuiltTransportClient; 
import java.net.InetAddress; 
jimport java.net .UnknownHostExosption; 
import java.util .Map; 
Public class ElasticsearchQueryUtils { 
Private int size= 20; 
private SearchHits hits; 
Private String index; 
Private String type; 
/集群 名 ,默认 值 为 elasticsearch 
Private static final String CLUSTER NAM= "elasticsearch"; 
//ES 集 群 中 某 个 节点 
Private static final String HOSTINAME= "localhost"; 
// 连 接 端 口号 
Private static final int TCP_ PORT= 9300; 
// 构 建 settings 对 象 
Private static Settings settings= Settings.builder () .put ("cluster.name", CLDSTER NAME) .build(); 
//Transportclient 对 象 ,用 于 连接 ES 集群 
Private static volatile TransportClient client; 
Eublic static TransportClient getClient (){ 
if(client==null){ 
synchronized (TransportClient.class){ 
try{ 
Client= new PreBuiltTransportClient (settings) 
.addTransportAddress (new TransportAddress (InetAddress.getByName 
(HOSTNAME), TCP PORT)); 
} catch (nlmownHostExcepticn e) { 
e.printStackrrace (); 
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} 
retum client; 
} 
Public ElasticsearchQueryUtils (){ } 
Public ElasticsearchoueryUtils(String index, int size) { 
this.size= size; 
} 
Public ElasticsearchQueryUtils Query (QueryBui lger queryBuilger) { 
SearchResponse response= ElasticsearchQueryUtils.getClient () .prepareSearch (this.index) 
.setSearchType (SearchType.DES QUERY THEN FETCH) 
.SetTypes (this.type) 
:setRuery (queryBui lder) 
.setSize (size) 
.3etEyplain (true) 
‘get (); 
this.hits= response.getHits(); 
retum this; 
} 
public SearchHits getHits() { retum hits; } 
Public int getSize() {retum size; } 
Public void setSize (int size) {this.size= size; } 
Public void setHits (SearchHits hits) {this.hits=hits; } 
Public String getIndex() {retum index; } 
Public void setIndex (String index) { this.index= index; } 
Public String getTYPe() { retum type; } 
Public void setType (String type) { this.type= type; } 


在 文件 夹 templates 中 创建 query. html, 内 容 如 代码 段 10. 5 所 示 。 这 里 使 用 的 前 端 框 
架 是 Layui( 需 要 先 从 Layui 的 官网 下 载 相 应 的 CSS 和 JS 文件 并 放 到 resources/static 目录 
下 ,注意 在 html 中 填写 正确 的 路 径 )。 前 端 代码 主要 通过 Ajax 向 后 台 传 递 查询 参数 , 待 后 
台 在 Elasticsearch 中 完成 查询 后 ,将 结果 返回 至 前 端 ,使 用 jQuery 将 结果 添加 到 页 面 并 
展示 。 
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代码 段 10.5: query.html 
< IDOCTYPE html> 
<hbml> 
<head> 
<meta charset= "utf- 8"> 
<title> 行 业 故 障 挖掘 演示 < /title> 
<meta name= "renderer" content— "webkit"> 
<meta http- equiv= "X- UA- Compatible" oontent= "IE= edge, chrame= 1"> 
< meta name= "viewport" content= "width= device- width，initial- scale=1, 
maximm- scale=1"> 
< link rel= "stylesheet" href= "layui/css/layui.css" media="all"> 
< /head> 
<body> 
<div class= "layui- container'> 
< fieldset class= "layui— elem field layui- field- title" style= "margin- top: 50px;"> 
<legend> 行 业 故 障 挖 气 演 示 < /legend> 
< /fieldset> 
<div class= "ayui- row"> 
<div class= "layui- tab layui- tab- card"> 
<u class= "layui- tab- title"> 
<1i> 相 似 案例 < /1i> 
<1i class= mlayui- this"*> 规 章 制度 < /1i> 
</ul> 
<div class= "layui- tab- content"> 
<div class= "layui- tab- item"> 
< form class= "layui— fom" actior= "> 
<div class= "layui- form item"> 
< textarea name= "caseStr" required lay- verify= "required" 
Placesholder= "请 输入 案例" class="layui- textarea"> </ 
textarea> 
</div> 
<div class=—™ i- form item"> 
<button class= "layui- btn" lay- aitmit lay- filter= "sim"> 立 即 提 
交 < /button> 
<button type= "reset" class= "layui- btn layui- btn- primary"> 重 置 
< /button> 
</div> 
< div id- "sinResult"> < /div> 
< /fom> 
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</div> 
<div class= mlayui- tab- item 1layui- show> 
< formm class= "layui- form" action= > 
<div class= mayui- fomm item"> 
< imput typer "text" namer "queryStr" reqnired 
lay- verify =" required"” placsholder =" 请 输入 查询 关键 字 " 
autoomplete= "off" class= "layui— input"> 
</div> 
< div class= mlayui- form- item"> 
<button class= "layui- btn" lay- submit lay- filter= "rule"> 立 即 提 


交 < /button> 
<button type= "reset" class= "layui- btn layui- btn- primary"> 重 置 
< /button> 
</div> 
<div id "ruleResult"> < /div> 
< /fom> 
</div> 
</div> 
< /div> 
</div> 
</div> 
< script src= "layui/layui .js" charset= "utf- 8"> < /script> 
< script> 


layui .use('form', function(){ 
Var fome layui .fom; 
var $= layui .jquery; 
fom.on ("submit (sim)", function (data) { 
$.ajax({ 
url:"/querySim", 
type:"GET", 
data:data.field, 
Success: functicn (msg) { 
Var data= JSON.Parse (msg); 
for(var i=0; i< data.length; i++){ 
$ ("# simResult") .append ("< blockquote class= "layui- elem- quote"> "+ 
Gata[i] .content+ "< /blockquote> "); 
} 
fomrender(0; // 更 新 全 部 


D; 
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retum false; // 阻 止 表单 跳 转 。 如 果 需 要 表单 跳 转 , 作 相应 的 修改 即 可 
Ds; 
fom.on ("submit (rule)", function (data) { 
console.log(Gata) ; 
$.ajax({ 
url:"/queryRule", 
type:"GET", 
data:data.field, 
sucoess: finction (msg) { 
Var data= JSON.parse (msg); 
for(var i=0; i< data.length; i++){ 
$ (# ruleResult") .append ("< blockouote class= "layui- elem quote">" 
+data[i] .docNamer "<br>" 
+data[i] .haptert data[i] .articlet ": " 
+data[i] .context+ "<br>" 
+ "< /blockouote> "); 
} 
fomm.render (); // 更 新 全 部 


D; 
D; 
< /script> 
< /body> 
</htm> 


在 src/main/java/com/demo 文件 夹 下 创建 Service 层 文件 并 将 其 命名 为 EsQueryService， 
内 容 如 代码 段 10. 6 所 示 , 它 主要 用 于 对 上 层 的 Controller 提供 检索 服务 。 


代码 段 10.6: EsQueryService 
//import 语 句 上 略 ) 
piblic class EsQueryService { 
Private static Elasticseard QueryUtils utils= new Elasticseard QeryUtils(); 
Public SearchHits queryRule (String... queryStr) { 
String[] fields= {"oontext"}; 
QueryBuilder qo= new MoreLikeThisQueryBuilger (fields, queryStr, null) 
-minTemFreq(1) 


本 
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-mxRueryTerms (12)7 
utils.setIngex ("doc"); 
utils.setType ("rule"); 
retum utils.Query (gb) .getHits (); 
} 
public SearchHits queryCase (String queryStr) { 
QeryBuilder do QueryBuilders.matcOuery ("content", queryStr); 
utils.setIndex ("case"); 
utils.setType(" doc"); 
retum utils.Qery (dh) .getHits (); 


} 


在 src/main/java/com/demo 文件 夹 下 创建 Controller 层 文件 ,这 里 将 其 命名 为 
HighSpeedController, 内 容 如 代码 段 10.7 所 示 。 它 主要 用 于 对 外 提供 检索 接口 并 将 查询 
结果 拼接 成 JSON 数据 返回 至 前 端 。 对 querySimCase 函数 使 用 @GetMapping, 设 置 请 求 
路 径 为 /querySim ,使 用 @ResponseBody 设置 返回 数据 转化 为 指定 格式 后 写 入 response 对 
象 的 body 中 ,通常 用 来 返回 JSON 数据 。 对 queryRule 函数 使 用 相同 的 设置 ,请 求 路 径 设 
置 为 queryRule。 


代码 段 10.7: Highspeedcontroller 
//import 语 句 略 ) 
@ Controller 
Public class HighSpeedoontroller { 
private EsQueryService esQueryService— new EsQueryService(); 
@ GetMapping (value= "query") 
Public String queryIndex () { 
retum "query"; 
} 
@ ResponseBody 
@ GetMapping (value= "querySim") 
Public String querySinCase (@ RequestParam(value= "caseStr", WR 
VSONArray jsonarray new JSONRrray0 
SearchHits hits- esQueryService.qheryCase (caseStr)7 
for (SearchHit hit: hits) { 
jsonArray.add (hit.getSourcepshep 0)7 
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retum jsonArray.toString(); 
} 
@ ResponseBody 
@ GetMapping (value= "queryRule") 
Public String queryRule (@ RequestParam(value= "queryStr", required- true) String queryStr) { 
USCNRrray jsonArray= new JSONArray (); 
SearchHits hits= esQueryServioe.queryRule (queryStr); 
for (SearchHit hit: hits) { 
jsonArray.add (hit .getSouroaAsMap ())7 
} 
retum jsonArray.toString(); 


启动 内 路 Web 服务 器 ,如 图 10. 6 所 示 。 待 启动 完成 后 ,在 浏览 器 中 输入 http:// 
localhost:8080, 可 以 看 到 检索 页 面 首页 ,如 图 10.7 所 示 。 


2618-98-94 10:58:67.738 INFO 21272 --- [_ restartedMain] com.demo.highspeed.HighSpeedApl| 


图 10.6 启动 Spring Boot 内 置 的 Web 服务 器 


行业 故障 控 握 演示 
相 以 宇 例 。。 规章 制度 


请 给 入 守 例 


EE = | 


10.7 检索 页 面 首页 


在 “相似 案例 ”或 “规章 制度 ”的 文本 框 中 ,输入 需要 查询 的 内 容 , 单 击 “ 立 即 提交 ”按钮 ， 
前 端 会 通过 Ajax 查询 数据 ,并 将 查询 结果 集 展示 在 前 端 页 面 。 如 图 10. 8 和 图 10. 9 所 示 。 
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入 案例 规 齐 制 度 


"数据 机 房 ，UPS 按 照 1+1 设 计 ， 建 设 过 程 中 ， 酝 1+1 圣 统 梅 时 变更 为 两 个 单 训 系统 


| “行业 吉 据 机 房 ，UPS 皖 照 1+1 记 计 ， 建 设 过 程 中 ， 档 1+1 季 统 星 8j 空 更 为 两 个 兰 机 于 统 。 故 障 入网 :年 后 ， 维 护 工程 用 jyUPS 渤 行 维护 ， 关 掉 1 号 机 音 安 各 时 ，A 随 负 示 挤 sa 
| “要 据 机 房 ，UPS 1+1 第 构 ，UPS 维 扩 时 ， 关 壕 一 台 后 ， 并 机 杠 开 关 实 希 唤 司 ， 所 再 英 载 中 断 - 
| 苦行 业 UPS 机 房 电 油 起 火 ， 宙 房 温度 引发 电 泪 款 失 注 ， 电 沪 笨 路 起 火 。 


| 故 了 现象: UPS 机 房 起 火 。 故 条 过 各 ;UPS 电 雁 故 陵 把 火 ， 引 | 驳 UPS 和 UPS 上 广电 并， 电汇 中奖 知 路 ， 引 起 电池 想 火 ， 最 后 启动 册 房 亏 肖 才 把 火 站 天 . 


图 10.8 “相似 案例 ”检索 页 面 


行业 故障 控 所 演示 


相似 案 出 。 规章 制度 


第 一 车 
UPS 电 源 机 房管 理 制 度 


第 一 草 第 一 条 :机房 包 攻 专人 保管 


UPS 电 源 机 房管 理 制度 
第 一 齐 第 二 条 ; 外 单位 维护 人 员 党 和 过 入 万 工作 的 ， 过 首先 寺 忆 整训 舟 ， 开 在 机 务工 作 人 另 隔 同 下 进入 矶 埠 。 


UPS 电 源 机 已 理 抽 度 
第 一 齐 第 三 杀 ; 参观 人 员 索 事先 联系 ， 并 得 到 中 心 主任 批准 ， 才 能 在 工作 人 员 辽 同 下 进入 机 万- 


图 10.9 “规章 制度 ”检索 页 面 


103 苦于 Logstash 的 日 志 处 理 

本 节 介 绍 基 于 Logstash 的 日 志 处 理 。 这 里 将 Spring Boot 作为 客户 端 ,使 用 TCP 把 请 
求 日 志 发 送 给 Logstash, 输 出 至 Elasitcsearch 并 在 屏幕 上 输出 。 
10.3.1 配置 Spring Boot 输出 日 志 


在 后 端 和 前 端 进行 联合 调试 时 可 能 会 遇 到 很 多 问题 。 出 现 问 题 时 ,由 于 Spring Boot 
默认 不 输出 请 求 日 志 , 因 而 不 便于 查找 问题 。 使 用 AOP 解析 请 求 , 并 通过 Logstash 输出 至 
Elasticsearch, 可 方便 ,快速 地 定位 错误 信息 ,同时 也 可 为 以 后 的 维护 带 来 便利 。 要 使 用 
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AOP ,应 先 在 pom. xml 中 添加 依赖 包 的 信息 ,如 代码 段 10. 8 所 示 。 


代码 段 10.8: MOP 依赖 包 

< dependency> 
< groupId> org.springframework.boot< /groupId> 
< artifactId> spring- boot- starter- aop< /artifactId> 
< version> 1.3.3.REIEASE< /version> 

< /dependency> 


‘ 
AOP 为 Aspect Oriented Programming 的 缩写 , 意 为 面向 切面 编程 , 它 是 一 种 
通过 预 编译 方式 和 运行 期 动态 代理 实现 程序 功能 的 统一 维护 的 技术 。 


在 实现 Web 层 日 志 切 面 的 程序 时 ,需要 将 代码 段 10. 9 放 到 和 Controller 相同 的 目录 
下 ,否则 无 法 拦截 相应 的 请 求 信息 。 函 数 doBefore 的 作用 是 将 接收 到 的 请 求 信息 包装 成 
JSON 格式 的 数据 ,并 通过 TCP 传输 到 Logstash 中 。 


代码 段 10.9: 转发 请 求 

//import 语 句 略 ) 

@ Aspect 

@ Component 

public class WEbLogaspect { 
@ Pointout ("execution(% com.demo.highspeed.web. * .* (..))") 
Public void weblog() {} 


@ Before ("weblog()") 
Public void doBefore (JoinPoint joinpoint) { 

// 接 收 到 请 求 ,记录 请 求 内 容 
ServletRequestAttributes attributes = (ServletRequestRttributes ) RequestContextHolder. 
getRequestAttributes (0) 

HttpServletRequest regquest= attributes.getRequest (); 

// 记 录 请 求 内 容 

JSCNObject json= new JSONCbject (); 

json.put ("url", request.getRequestURL() .toString()); 

json.put ("type", request.getMethod()); 

jscn.put ("rempteIP", request.getRemotenodr ()); 

jscon.put (‘method", joinpoint .getSignature() -getName (0)) 7 
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jscn.put ("params", Arrays.toString (joinpoint .getArgs())); 


TopClient .sendpata (json.tostring()); 


} 


有 关 TCP 客户 端 传输 协议 的 详细 说 明 可 参考 第 6 章 的 相关 内 容 。 在 查询 相关 案例 和 
规章 制度 时 有 中 文字 符 , 因 此 需要 将 字符 串 统一 成 UTF-8 编码 。 传 输 完毕 后 ,注意 要 关闭 
该 连接 , 见 代码 段 10. 10。 


代码 段 10.10: TcP 客 户 端 

//import 语句 略 ) 

Public class TopClient { 
private static final String ip= "10.8.0.3"; 
Private static final int port= 5656; 


public static void sendData (String str) { 

try{ 
Socket s= new Socket (InetAddress.getByName (ip), port); 
DataoutputStream dos= new DataOutputStream(s.getOutputStream()) 7 
dos.write (str.getBytes ("UTF- 8")); 
3.close(); 

} catch (IOException e) { 
e.PrintStackTrace (); 

} 


10.3.2 在 Logstash 中 进行 相关 配置 


在 Logstash 的 配置 文件 (这 里 是 在 Logstash 的 bin 文件 夹 下 的 conf. conf 配置 文件 ) 中 
进行 相关 的 配置 , 见 代 码 段 10. 11。 同 样 ,这 里 需要 注意 将 输入 时 的 字符 编码 统一 为 UTF-8， 
与 上 述 TCP 传输 数据 时 的 编码 相 一 致 。 


代码 段 10.11: Logstash 的 配置 文件 ,注意 ,对 host= > ["10.8.0.3"] 要 进行 有 针对 性 的 修改 ， 
如 localhost 
input { 
top { 
host=> "0.0.0.0" # 可 选项 ,默认 为 0.0.0.0 


1330 1 


大 数据 搜索 与 挖掘 及 可 视 化 管理 方案 一 一 Elastic Stack 6: Elasticsearch、Logstash、Kibana、X-Pack、Beats ( 第 4 版 ) 


mode= > "server"” ”提取 值 为 "server"、"client" 之 一 ,可 选项 ,默认 为 "server" 
port= > "5656" # 必 选项 ,端口 号 , 需 和 通信 的 另 一 端的 端口 号 匹配 
codec=> json{ charset= > "UTF- 8" } 
} 
} 
filter { 
json { 
Source= > "message" 
} 
} 
output { # 输 出 目的 地 
stdout{ } #stdout 是 标准 输出 文件 
elasticsearch { # 通 过 HTTP 的 方式 将 数据 传输 到 Elasticsearch 中 
hosts=> ["10.8.0.3"] # 指 定数 组 形式 的 hosts 列表 
} 
} 


启动 Elasticsearch。 使 用 命令 . /logstash -f conf. conf 启动 Logstash。 然 后 利用 
Elasticsearch 的 Head 工具 就 可 以 看 到 Spring Boot 的 请 求 日 志 信 息 已 经 进入 Elasticsearch 
的 索引 文件 中 了 ,如 图 10. 10 所 示 


图 10. 10 请求 日 志 信 息 已 被 索引 


104 苦于 Kbana 的 日 志 分 析 结 果 可 视 化 


启动 Kibana, 在 左 侧 导航 栏 的 Management 中 单 击 Create Index Pattern 按钮 创建 新 索 
引 模式 ,如 图 10. 11 所 示 。 
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Management / Kibana 
Index Patterns Saved Objects Advanced Settings 


图 10.11 添加 索引 


在 定义 索引 模式 的 文本 框 中 输入 logstash- x 匹配 所 有 的 Logstash 产生 的 日 志文 件 。 
类 似 地 ,故障 案例 索引 文件 case 和 规章 制度 索引 文件 doc 也 需要 先 添加 到 Kibana 中 ,如 
图 10. 12 所 示 。 


Create index pattern 
Kibana uses index patterns to retrieve data from Elasticsearch indices for things like visualizations. DO ndude ystem indices 


Step 1 of 2: Define index pattern 


Index partern 


| logstash* 


Youcan use a # as a wldcardin your index patiem. 
Youcan't use empey spoces or the cheractem V1,3,", 57, |. > Next step 


~ Success! Your index pattern matches 2 indices. 


logstash-2018.08.05 


logstash-2018.08.06 


Rows per page:10 ~ 


图 10.12 设置 用 于 可 视 化 的 索引 模式 


10.4.1 访问 量 走势 分 析 


下 面 对 后 台 的 请 求 访问 量 进行 统计 分 析 。 在 Visualize 组 件 中 选择 Area 选项 ,设置 Y 
轴 的 聚合 方式 为 Count 并 将 自 定义 标签 命名 为 “访问 量 ”, 如 图 10. 13 所 示 。 


Metrics 
国 wa 
Aggregation 


Count 


Custom Label 
访问 量 


4Advanced 


图 10.13 设 定 图 表 的 立轴 数据 来 源 
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设置 X 轴 的 聚合 方式 为 Date Histogram, 将 自 定义 标签 命名 为 “访问 时 间 ”, 其 他 按 默 
认 设置 即 可 ,如 图 10. 14 所 示 。 


Buckets 


图 xs 


Aggregation 


Date Histogram 


Field 


@timestamp 


Interval 


Auto 


Custom Label 
访问 时 间 
4Advanced 


Add sub-buckets 


图 10.14 设 定 图 表 的 X 轴 数 据 来 源 


单 击 国 按钮 生成 统计 图 ,如 图 10. 15 所 示 , 该 图 较为 直观 地 反映 了 各 个 时 间 段 的 访问 
量 的 走势 。 


B 5 © @ 访 里 


10.15 访问 量 走势 
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统计 时 ,为 更 加 精确 地 检索 某 个 函数 调用 的 次 数 ,以 便 着 重 优化 该 方法 ,可 单 击 上 方 的 
Add a filter 按钮 添加 一 个 过 滤器 ,选择 需要 查询 的 方法 名 称 和 表达 式 , 单 击 Save 按钮 保存 
即 可 ,如 图 10. 16 所 示 。 单 击 国 图 标 可 关闭 或 开启 该 过 滤器 。 


method. keyword: “queryRule™ 区 已 gls Add afiter 十 


Editfilter X 


Filter Edit Query DSL 


method.keyword ~ is ~ querySimCase = 


Label 


Optional 


器 ee 


图 10.16 添加 过 滤器 


10.4.2 查询 参数 比率 分 析 


下 面 给 出 网 站 请 求 链接 中 查询 参数 比率 分 析 。 选 择 Pie 创建 饼 图 , Bucket 的 设置 如 
图 10. 17 所 示 , 单 击 国 按钮 生成 饼 图 ,如 图 10. 18 所 示 。 借 助 于 它 , 可 对 排名 靠 前 的 几 个 查 
询 参 数 内 容 在 服务 器 中 进行 缓存 ,对 于 提高 服务 器 的 响应 速度 有 帮助 。 


Buckets 


国 Split Slices © 


Aggregation 


x 


Terms i 


Field 
params.keyword - 
Order By 
metric: 访问 数量 
Order Size 


Descent 6 


图 10.17 设 定 图 表 的 统计 字段 


Elastic Stack 6: Elasticsearch 、Logstash 、Kibana 、X-Pack、Beats ( 第 4 版 ) 


1 3341 大 数据 搜索 与 控 气 及 可 视 化 管理 方案 


外 


图 10.18 统计 结果 


10.4.3 故障 案例 可 视 化 


下 面 给 出 基于 Kibana 分 析 在 某 段 时 间 发 生 故 障 数量 的 方法 。 在 Visualize 组 件 中 选择 
Vertical Bar 选项 ,Y 轴 设 置 方式 可 参考 10. 4. 2 节 的 内 容 , 如 图 10. 19 所 示 。 


Metrics 


| ~ vc: 


Aggregation 


Count 有 


Custom Label 
事故 数量 


4Advanced 
Add metrics 


图 10.19 设置 Y 轴 聚合 方式 


为 方便 自 定义 统计 各 个 时 间 段 内 发 生 故障 的 数量 ,可 设置 X 轴 的 聚合 方式 为 Date 
Range, 自 定义 各 个 时 间 段 ,其 他 按 默认 设置 即 可 ,如 图 10. 20 所 示 。 图 10. 20 中 给 出 一 种 
日 期 的 计算 方式 ,以 now-lw/d 为 例 ,假设 当前 时 间 点 为 2018 年 8 月 17 日 11:09:10,now 
表示 当前 日 期 ,-1w 为 减 去 1 周 时 间 ,/d 表示 以 天 为 单位 对 最 后 结果 四 舍 五 入 ,所 以 最 后 结 
果 为 “2018 年 8 月 10 日 00:00:00”。 

设置 好 时 间 范 围 后 , 单 击 按钮 生成 事故 数量 条 形 图 ,如 图 10. 21 所 示 。 
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Buckets 
| © [x] 
Aggregation 
Date Range ~ 
Field 
date ” 
From To 
now-46ww now-44ww | [x] 
now-43ww now41ww | [x] 
now-40ww now38ww | [x] 
now-37ww now-35ww | [x] 
now-50ww now-46ww | [x] 
Accepted date formarts 


图 10.20 设置 聚合 方式 和 时 间 范 围 


| | 
3 
| 中 | 


10.21 事故 数量 条 形 图 


10.4.4 将 图 表 集 成 到 仪表 板 中 
下 面 给 出 创建 仪表 板 来 放置 上 述 图 表 结果 的 方法 。 在 图 10. 22 中 ,选择 Add 菜单 添加 
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图 表 。 


Dashboard / Editing New Dashboard Save Cancel Add Opions Shae CAulorehesh 《OAugust5h2018 145312694Io August6th 2016. 085312694 > 


ET bor ene beny ri 


This dashboard is empty. Lets fill it up! 
ad me EE baton in the menu bar above to add a vsualzation to the dashboard 
Hyou havemt set up any visualipationsyet wisit the Visualize app to create your first visualization 


图 10.22 Dashboard 首页 


将 前 面 建立 好 的 各 个 图 表 添 加 到 仪表 板 中 ,如 图 10. 23 所 示 。 


Dasnooard 7 Edng New Doshboord unsaved) Se Concel Mod Opons Sa CA < O-140090000 -11 ya 》 
Seard 5200AND extensloriPHP) vses uene qvey sto 加 
psda flor 

logstash-spring-boor EE a 


© ecom Oe 


0 rip] 
® po] 
De] 
E20 全 Bi 机 而 ] 
8 bm 
o 


To0 200%0 2300 O290 0500 0890 
Gimentomp por 了 0 intes 


交 关 庚 量 可 视 化 -柱状 图 o 


ee 
8 
- 国 加 | | 


10.23 ”仪表 板 


105 扩展 知识 与 阅读 


当前 Web 服务 向 更 精简 的 DevOps 标准 的 流程 发 展 。 当 业务 逮 辑 复杂 到 一 定 程度 时 ， 
对 系统 进行 微服 务 重 构 ,可 以 解 斐 代码 和 资源 ,让 每 个 业务 模块 的 构建 流程 更 短 ,发布 更 安 
全 ,API 更 稳定 。 要 了 解 关于 Spring Boot 的 更 多 信息 ,请 参考 Spring 的 官方 文档 (Spring， 
2018) 。 
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本 章 给 出 了 一 个 基于 Elasticsearch、Logstash、Kibana 的 行业 故障 案例 和 规章 制度 的 信 
息 检 索 , 日 志 分 析 及 可 视 化 ,故障 案例 分 析 及 可 视 化 的 工程 实例 。 为 使 Elasticsearch 的 存 
储 效率 最 大 化 ,应 对 所 有 存储 的 和 检索 的 字段 进行 分 析 , 必要 时 对 需要 统计 的 字段 开启 
fielddata 功能 以 解析 字段 内 容 。Web 后 台 是 基于 Spring Boot 框架 实现 的 ,前端 使 用 Layui 
和 jQuery 完成 ;对 日 志 的 处 理 采 用 了 Logstash; 可 视 化 则 是 基于 Kibana 实现 的 。 系 统 优 
化 、 故 障 分 析 可 通过 集成 图 表 、 可 视 化 统计 分 析 等 方式 实现 。 
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信息 检索 与 分 析 实例 (二 ) 


Netflix: ensuring message delivery and operational excellence; Facebook: 
delivering a better help experience for over a billion users; NASA JPL: 
powering the search for interplanetary Discovery; Shopback: smarter shopping 
and searching with help from the Elastic Stack. 

https://www. elastic. co/use-cases 


在 当前 国内 外 各 类 信息 服务 和 社交 媒体 等 行业 中 ,对 于 数据 检索 与 分 析 的 应 用 已 经 非 
常 广泛 。 这 一 现象 的 背后 ,体现 了 互联 网 上 信息 服务 在线 社交 、 新 媒体 等 机 构 的 爆炸 式 增 
长 。 同 时 ,互联 网 异 构 数据 体 量 巨大 , 随 着 时 间 的 推移 ,有 价值 的 数据 信息 日 益 增多 ,数据 更 
新 也 越 来 越 频繁 ,因此 人 们 对 于 大 数据 搜索 与 挖掘 的 需求 变 得 越 来 越 迫 切 。 要 满足 这 些 需 
求 ,可 能 会 面临 一 些 技术 上 的 困难 。 首 先是 大 数据 获取 。 当 前 流行 的 社交 网 站 和 新 媒体 普 
遍 采 用 各 种 形式 的 反扑 策 略 ( 例 如 异步 刷新 加 载 数据 或 髋 入 子 页 面 等 ), 这 就 使 得 常用 的 开 
源 网 络 候 忠 框 架 失效 。 其 次 是 各 种 信息 汇总 分 析 。 由 于 对 网 络 信息 的 检索 并 不 能 十 分 直观 
地 描述 汇总 数据 ,因此 对 信息 的 汇总 分 析 也 是 十 分 必要 的 。 本 章 给 出 一 个 融合 
Elasticsearch、Logstash、Kibana、X-Pack 和 Beats 6. 2 的 网 络 信息 检索 与 分 析 解 决 方案 。 信 
息 采 集 部 分 使 用 网 络 浏览 器 自动 化 测试 工具 Selenium 来 完成 动态 网 站 数据 的 候 取 2, 项 目 
整体 基于 Spring MVC 框架 开发 ,实现 B/S 结构 的 前 端 页 面 与 后 端 Java 程序 进行 数据 交 
换 、 后 端 程序 与 Elasticsearch 进行 数据 访问 等 功能 。 本 章 首先 给 出 动态 网 站 信息 采集 方 
法 ,接着 完成 分 布 式 搜索 ,然后 使 用 Logstash 处 理 Tomcat 服务 器 日 志 , 并 使 用 X-Pack 和 
Beats 等 组 件 进行 系统 监控 和 数据 传输 ,最 后 将 所 有 相关 数据 利用 Kibana 生成 统计 图 表 和 
动态 仪表 板 进行 可 视 化 展示 。 


@ 本章 只 涉及 信息 采集 的 部 分 技术 实现 。 所 采集 的 示例 数据 均 是 网 络 公开 数据 ,采集 行为 严格 遵循 相关 技术 规 
范 和 法 规 规定 。 
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111 面向 动态 网 站 的 信息 有 柔 集 


动态 网 站 与 常见 的 静态 页 面 不 同 , 它 往往 是 将 含有 内 容 的 数据 通过 异步 刷新 的 方式 逐 
步 添加 到 前 端 页 面 中 的 一 种 网 站 。 动 态 网 站 爬虫 的 编写 方法 与 静态 网 站 爬虫 不 同 ,一 般 需 
要 针对 每 个 不 同 的 网 站 进行 定制 开发 。 这 就 要 求 编写 动态 网 站 数据 爬虫 的 人 员 事 先 了 解 网 
站 页 面 加 载 数据 的 机 制 。 本 节 以 某 评测 网 站 为 例 , 通 过 模拟 的 方式 抓 取 评 测 内 容 。 网 站 中 
以 分 页 的 形式 展示 不 同 评测 文章 , 怜 虫 程序 需要 自动 检测 页 面 元 素 的 出 现 ,完成 自动 翻 页 ， 
打开 评测 内 容 页 面 ,自动 解析 页 面 的 评测 内 容 , 并 保存 疏 取 到 的 数据 。 


11.1.1 软件 准备 


在 采集 数据 和 开发 搜索 引擎 时 ,需要 事先 安装 Elastic Stack 相关 软件 Elasticsearch、 
Logstash 和 Kibana, 并 为 Elasticsearch 安装 中 文 分 析 器 (如 代 , 详 见 第 2 章 ), 为 Elasticsearch 
和 Kibana 安 装 X-Pack 插件 ( 详 见 第 8 章 )。 限 于 篇 幅 , 对 于 Beats 组 件 ,本 例 中 仅 使 用 
Filebeat 和 Metricbeat 。 


11.1.2 浏览 器 驱动 程序 


可 以 利用 浏览 器 驱动 程序 来 模拟 人 对 浏览 器 的 操作 ,可 以 实现 对 部 分 网 站 信息 的 有 效 
采集 。Selenium 是 一 种 浏览 器 自动 化 测试 工具 , 它 的 运行 需要 两 个 前 提 条 件 : 操作 系统 中 
装 有 Selenium 支持 的 浏览 器 以 及 该 浏览 器 对 应 的 驱动 程序 。 

以 谷歌 Chrome 浏览 器 为 例 ,Chrome 需要 一 个 名 为 chromedriver 的 驱动 程序 ,才能 被 
基于 Selenium 的 程序 控制 ,并 完成 预先 设 定 的 操作 。Chromedriver 支持 多 种 操作 系统 (如 
Mac OS x64、Windows x86、Linux x86 和 Linux x64), 可 以 通过 访问 镜像 链接 http:// 
chromedriver. storage. googleapis. com/index. html 或 http://npm. taobao. org/mirrors/ 
chromedriver 来 获取 chromedriver 的 资源 。 在 Linux 系统 中 ,下 载 后 应 将 chromedriver 移 
动 到 /usr/bin 目录 中 ;在 Windows 系统 中 ,下 载 后 应 将 chromedriver 移动 到 Chrome 浏览 
器 目录 中 ,并 在 环境 变量 Path 中 追加 这 一 路 径 。 


: 

上 面 提 到 的 x86 指 32 位 操作 系统 ,x64 指 64 位 操作 系统 。 另 外 ,下 载 
chromedriver 程序 时 一 定 要 事先 查阅 其 版 本 与 Chrome 浏览 器 版 本 的 对 照 表 ,只 有 版 本 
相互 对 应 的 程序 才 可 以 正常 使 用 。 
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11.1.3 创建 索引 和 映像 


采集 数据 前 ,需要 在 Elasticsearch 中 创建 对 应 的 索引 和 映像 ,并 完成 相应 设置 (分 别 为 
后 面 要 采集 的 8 种 字段 设置 数据 类 型 .格式 和 分 词 器 等 属性 ) 。 在 Kibana 的 Dev Tools 中 
写 代 码 段 11. 1 所 示 的 命令 , 即 可 创建 索引 和 映像 。 


代码 段 11.1: 创建 索引 pingce 的 映像 


PUT pingce # 定 义 索引 名 称 为 pingce 
和 
"mappings": { 
"deons-{ # 定 义 统一 的 类 型 名 称 _doc 
"Properties": { 
I 


"type": keyword" 
和 
"title": { 
"type": "text", 
ningdex": true, 
"analyzer": "ik max word" 
), 
"author": { 
"type": "keyword" 
}, 
"publishTime": { 
"type": "date", 
"fommat": "yyyy- M4- dan # 网 站 中 并 非 这 一 时 间 格 式 , 这 里 由 程序 调整 而 成 
}, 
"content": { 
type": "text", 
"ingex": true, 
"analyzer": "ik max Wordn 
}, 
"tags": { 
"type": "text", 
"analyzer": "ik max word" 
外 
"views": { 
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ee # 设 置 访问 量 为 整数 类 型 
a 
“oments": { 

"type": "short" # 设 置 评论 数 为 短 整 型 


11.1.4 导入 依赖 


接 下 来 ,以 手动 导入 依赖 的 方式 将 Selenium、Elasticsearch、X-Pack、Gson 的 依赖 导入 
软件 开发 平台 IDE (如 Intellij IDEA) 中 。Selenium 全 部 依赖 的 ZIP 包 可 以 在 其 官网 
https://www. seleniumhq. org/download/ 找 到 ,将 其 中 的 全 部 JAR 包 导 入 即 可 ; 
Elasticsearch 的 大 部 分 依赖 可 以 在 其 安装 目录 中 找到 ,将 其 中 lib 文件 夹 和 modules 文件 夹 
中 的 所 有 JAR 包 导 入 即 可 (Elasticsearch 还 需要 导入 一 个 Transport 包 , 这 个 包 与 Gson 包 
均 可 在 阿里 云 的 Maven 镜像 网 站 中 央 存 储 库 中 找到 ,地 址 为 http://maven. aliyun. com/ 
mvn/view)。 进 入 该 网 页 后 ,屏幕 下 方 的 文件 目录 即 为 远程 服务 器 中 所 有 依赖 的 存放 位 置 ， 
如 图 11. 1 所 示 。 


图 11.1 镜像 的 远程 目录 


展开 org/elasticsearch/client/transport/6. 2. 4, 选 择 其 中 的 transport-6. 2. 4. jar, 右 侧 
会 弹出 该 资源 的 基本 信息 , 单 击 山 按钮 即 可 获取 Elasticsearch 的 Transport 包 , 如 图 11. 2 
所 示 。 以 同样 的 方法 展开 com/google/code/gson/2. 8.0, 选 择 其 中 的 gson-2. 8. 0. jar, 在 弹 
出 的 详细 信息 中 单 击 Download 按钮 来 获取 Gson 包 。 

X-Pack 的 依赖 可 以 在 Elasticsearch 安装 主 目录 下 的 plugins/x-pack 目录 中 找到 。 由 
于 Elasticsearch 中 使 用 了 X-Pack 插件 ,在 创建 TransportClient 实例 时 还 需 额 外 引用 
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» 6.2.3/ 基本 信息 

* D6.2.4/ [TT 
自 transport-6.2.4javadocjar | 仓库 oo 
自 transport-6.2.4-javadoc jar. 
自 transport-6.2.4javadocjar，| ”名称 pea 
自 transport-6.2.4-sources.jar 
ano z iocosi | “到 竹 /orgfelasticsearch/chienttranspor/6.2.4Nransport-6.2.4jar 
自 transport-6.2.4-sources.jar. 
自 transport-6,2.4jar 上 文件 大 小 To 
Mtoeport 6.24 oe mds 最 后 修改 时 间 。 2018-07-24 05:00:15 
自 transport-6.2.4jar.shal 
自 transport-6.2.4.pom 操作 山 加 
自 transport-6.2.4.pom.md5 


图 11.2 获取 Transport 包 


x-pack-transport-6. 2. 4.jar 包 ( 由 于 一 般 情况 下 这 个 包 可 能 并 未 保存 在 x-pack 文件 夹 中 ， 
因此 需要 访问 相关 的 资源 链接 https://artifacts. elastic. co/maven/org/elasticsearch/ 
client/x-pack-transport/6. 2. 4/x-pack-transport-6. 2. 4. jar, 以 在 线 方 式 获 取 )。 

上 述 工作 完成 后 ,将 3 个 JAR 包 全 部 导入 开发 平台 IDEA 的 library 中 即 可 。 


时 
ee 资源 链接 中 的 版 本 号 6. 2. 4 也 可 以 改 为 其 他 版 本 ,可 以 根据 实际 情况 进行 
修改 。 


11.1.5 数据 采集 


下 面 根据 某 网 站 科技 产品 评测 页 面 加 载 数据 的 机 制 来 编写 相应 的 怜 虫 代码 。 

首先 创建 一 个 Elasticsearch 的 Transport 实例 ,如 代码 段 11. 2 所 示 。 由 于 X-Pack 需 
要 身份 验证 的 安全 特性 ,Client 实例 初始 化 时 ,需要 在 静态 类 Settings 中 添加 transport_ 
admin 身份 用 户 的 验证 信息 (下 面 代码 中 指定 的 用 户 是 cy, 配 置 方法 详 见 第 8 章 。 如 果 
elasticsearch. yml 配置 文件 中 配置 了 集群 名 称 , 则 必须 在 Settings 中 添加 集群 名 称 。 如 果 
集群 中 开启 了 多 个 节点 ,那么 在 addTransport Address() 方 法 后 面 应 该 继续 链 式 调用 
addTransportAddress() 方 法 将 所 有 节点 的 IP 地 址 和 端口 追加 到 代码 中 )。 该 初始 化 过 程 
在 static 块 中 执行 ,意味 着 程序 启动 之 时 Client 实例 就 已 常 驻 内 存 , 这 样 可 以 避免 其 反复 初 
始 化 ,提高 运行 效率 。 
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代码 段 11.2: XEackEsclient 类 

import org.elasticsearch.oqmon.settings.Settings; 

jimport org.elasticseardh.coqmon.transport.TransportAddress; 

jimport org.elasticseardh.transport.client.PreBuiltTransportClient; 
import org.elasticsearch.xpack.client..PreBuiltXPackTransportClient; 


import java.net.InetAddress; 
import java.net .UnknownHostExosption; 


Public class XPackESclient { 
Public static TransportClient client; 


static { 
try{ 
client= new PreBuiltXxPackTransportClient (Settings.builder() 
.Put ("cluster.name", "cyElasticsearch") 
.Put ("pack. security.user", "cy:123456") 
:build()) 
.addTransportAddress (new TransportAddress (InetAddress. 
getByName ("localhost") ,9300)); 
// 如 果 集 群 中 同时 开启 了 多 个 节点 , 则 应 在 此 继续 链 式 调用 以 下 代码 ， 
// 端 口号 递增 
// -addTransportAddress (new TransportAddress (InetAddress. 
//getByNeme ("localhost"), 9301)); 
} catch (UnlmownHostExcepticn e) { 
e.printStackTrace () 


} 


代码 段 11. 3 实现 了 利用 两 个 驱动 程序 实例 分 别 控制 两 个 Chrome 浏览 器 的 方法 来 对 
科技 产品 评测 列表 及 其 内 容 进 行 采 集 。 其 中 main() 方 法 中 写 人 了 爬虫 执行 的 主线 业务 逻 
辑 , WaittEmerging() 方 法 实现 了 等 待 页 面 中 某 种 元 素 加 载 的 功能 ,GetReviews() 方 法 实现 
了 批量 采集 评测 内 容 页 面 URL、 页 面 中 评测 标题 ` 作 者、 评测 正 文 ` 评 测 发 布 时 间 、 访 问 量 、 
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代码 段 11.3: PingceCrewler 类 

import cam.google.gson.Gaon; 

import org.elasticsearch.action.index. IndexResponse; 
import org.elasticsearch.cammon.xcontent.XContentTypey 
jmport org.openqa .selenium. * 7 

import org.openga.selenium.chrame.ChromeDriver; 

import org.apenqa.selenium.interacticns.Rctionsy 

import org.apenqa.selenium.support.ui.Expectedconditionsy 
jimport org.cpenqa.selenium.support.ui.WEbDriverwait7 


jimport java.util.ArrayList; 
import java.util.HashMap; 
import java-util.Iisty 
import java.util .Map; 


Public class PingceCrawler { 


private static int refresh= 50; // 预 定 翻 页 次 数 
Private static boolean isInsert= true; 
//true 表 示 数 据 直接 存 人 Elasticsearch;false 表 示 仅 测试 ,不 人 库 
Private static WebDriver driver, innerDriver; 

private static WebDriverWait wait; 

Private static List< String> urlList= new ArrayList< > (); 
Private static String url; 

Private static String title; 

Private static String author; 

private static String publishTime; 

Private static List< WebElement> elementList; 

private static StringBuilger builder= new StringBuilder (); 
Private static String content; 

Private static String tags; 

Private static String views; 

Private static String oments; 

Private static Actions actions; 


Public static void main (String[] args) { 
// 初 始 化 谷歌 chrome 浏 览 器 驱动 程序 
Griver= new ChromeDriver (); 

// 访 问 评测 页 面 
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driver.get ("rl"); ”// 这 里 写 人 待 采集 的 网 站 的 DEL 地 址 
// 等 待 评测 信 息 加 载 ,完成 的 标志 是 "下 一 页 "按钮 出 现 
Wait Emerging ("//a[l@ class= "next']"); 
// 著 取 当 前 页 12 条 评测 的 链接 
for (int i=1; i<=12; 计 +) { 
urllist.add (driver. findElement (By.xpath("//ul[@ id= ‘post_ oontainer']/li[+ 计 ] 
/div[@ class= "article']/h2/a")) .getAttribute ("href")); 
} 
/获取 该 12 条 评测 的 数据 
GetReviews (urlList); 
urlList.clear()7 
for (int i=0; i< refresh; 计 +) { 
/ 单 击 " 中 一 页 按钮 翻 页 
driver.findElement (By.xpath("//a[@ class= 'next']")) .click(); 
for (i=1; i<=12; it+) { 
try{ 
urllist.add (driver.findElement (By.xpath("//ul[@ id= 'post_oontainer']/li["+i 
+"] 
/div[@ class= 'article']/h2/a")) .getAttribute ("href")); 
} catch (NoSuchElementExosption nsee) { 
// 获 取 不 到 后 续 评测 ,表示 已 经 结束 ,退出 
System.exit(0)7 


Public static void Weit4Emerging (String strxpath) { 
while (true) { 

try{ 
wait= new WebDriverWait (driver, 5); 
wait.until (Expecteqdconditicons.PresenceOfFlementLocated (By. 
Fath (strxpath) )); 
if (driver.findElement (By.xpath (strxpath)) !=null) 

break; 

} catch (NoSuchElementExosption nsee) { 

System.out.printin(" 答 测 的 信息 未 找到 ,继续 等 待 。"); 
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} catch (TimeoutExosption te) { 
System.out.printin(" 检 测 过 程 超出 5s 预 定时 间 ,继续 等 待 。"); 


Public static void GetReviews (List< String> urlLlist) { 
// 初 始 化 抓 取 评 测 内 容 的 谷歌 crome 浏 览 器 驱动 程序 
innerDriver= new ChroameDriver (); 
for (String link : urlList) { 
inmmerDriver .get (link); 
url= Link; 
System.cut.println (link) ; 
try{ 
title= innerDriver.findElement (By.xpath("//div[@ class= 
"article oontainer row box']/hl")) .getText(); 
System.out .printIn ("title: "+ title); 
author= innerDriver. findelement (By.xpath ("//span [@ class= 'info_author info_ ico 
"]")) .getText (); 
System.out .print in ("author: "+ author); 
publishTime= innerDriver. findElement (By.xpath ("//span[@ class= 'info date info ico 
"1")).getText (); 
// 将 时 间 格 式 调整 为 年 -月 -日 的 格式 ,此 处 可 根据 实际 情况 定制 
if (Integer.parseInt (publishTime.substring(0, 2))>= 10) 
publishTime= "2017- "+ publishTime; 
else publishTime= "2018- "+ publishTime; 
System.out.println ("publishTime: "+ publishTime); 
elementList= innerDriver.findElements (By.xpath("//div[Q id= 
‘post_oontent']/p")); 
// 去 掉 没 有 价值 的 部 分 信息 
for (WebElement element : elementList) { 
if (element.getText () .trim() .equals("")) continuey 
寺 (element.getText () .trim() .eqpals (评测 视频 : ")) ontinue; 
if (element.getText () .trim() .contains ("< span> ") && 
element.getText () .trim() .contains ("< /span> ")) 
ontinve; 
builder.append (element. .getText ()+ \n"); 
} 
content= bui lger.toString(); 
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System.out .print in ("oontent:"+ oontent); 
builder.delete (0, builger.length()- 1); 
List< WebElement > tagsList= innerDriver. findElements (By.xpath ("//div [@ class=" 
tagcloud']/am)7 
for (WElerent tag : tagsList) builder.append (tag.get let (+" "); 
builder .deleteCharAt (builder.length()-— 1); 
tags= builder.toString()7 
System.out.Println ("tags: "+ tags); 
if (builger.length()> 0) 
builger.delete (0, builger.length()- 1); 
views= innerDriver. findelement (By. wpath ("//span [@ class= 'info_views info ico 
"]")) .getText (); 
System.out.println ("views: "+ views); 
comments= innerDriver. findElement (By.xpath ("//span[@ class= 
"info_ccomment info ico']/a")) .getText (); 
System.cut.println ("omment's: "+ oomments); 
if (isInsert) { 
Map< String, Cbject> map= new HashMap< > (); 
map-put ("url", url); 
map.put ("title", title); 
map.put ("author", author); 
map.put ("publishTime", publishTime); 
map.put ("content", ontent); 
map.put ("tags", tags); 
map.put ("views", views); 
map.put ("omment's", oments); 
String s= new Gson() .toJson (map); 
IndexResponse response= ESClient.client .prepareIndex 
("pingoe", "_doc") 
.setSource (s, XContentType.JSON) .get (); 
} 
} catch (NoSuchElementExosption nse) { 


// 防 止 页 面 出 错 导致 程序 中 断 
Continuey 
} 
} 
// 按 组 合 键 ALt+ F4 关 闭 当 前 窗口 


actions= new Actions (innerDriver); 
acticns. heyDomn (Keys.ALT) .enckeys (Keys.F4) .keyUp (Feys.AIT) .perfomm(); 
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innerDriver.close(); 


innerDriver.quit (); 


要 运行 Selenium 采集 程序 ,需要 先 启动 浏览 器 驱动 程序 。 进 入 /usr/bin 目录 ,在 终端 
执行 命令 . /chromedriver 启动 chromedriver, 如 图 11. 3 所 示 。 


g ChromeDriver 2. 769 (2fled5f9343c13f73144538fl15c99b379eda6796) on 


port 9515 
only local connections are allowed 


图 11.3 启动 Chromedriver 


最 后 ,编译 并 运行 Java 程序 ,如 果 程 序 执行 正常 ,浏览 器 会 自动 弹出 ,并 自动 执行 操作 ， 
采集 到 的 信息 会 在 存 人 Elasticsearch 的 同时 输出 到 IDEA 的 控制 台 。 采 集 完成 后 ,可 以 在 
Kibana 中 添加 索引 pingce 的 索引 模式 ,在 Discover 程序 中 可 以 查看 Elasticsearch 索引 中 
的 数据 ,图 11. 4 为 采集 的 部 分 数据 。 


Time- source 


» September 1st 2918，68:69:66.969 publishTine septenber 1st 2018，68:66:06.066 ICOments (Othon 大 米 评测 IEEELE3 小 米 
SX 体验 评测 (对比 息 苦 X、 小 米 6) 而 FU 本 wpe ome im meee ed COnitent3 6Hetto， 大 家 好 
我 是 大 米 ， 又 和 大 家 见 画 哈 ， 最 近 有 不 少 小 忆 伴 问 ， 谈 ， 大 米 你 能 不 能 做 一 个 有 关 小 米 5X 的 评测 视频 ? 因为 新 版 本 4+326 
8 千 价 1299 看 起 来 好 像 还 可 以 ， 于 是 大 米 也 是 应 小 伙伴 的 要 求 ， 买 了 一 台 ， 那 么 这 台 机 子 实际 表现 到 底 怎 么 样 ?今天 我 们 
就 一 起 来 阅 单 了 解 下 吧 -~ 视频 评测 :产品 外 观 : 评测 小 峙 : 阐 单 使 用 几 天 之 后 的 一 点 小 感受 就 是 ， 小 米 5X 在 做 工 质 


图 11.4 ”Elasticsearch 中 存储 的 部 分 数据 


112 及 于 Sping MMC 的 信息 检索 及 Web 程序 设计 


11.2.1 创建 和 配置 Spring MVC 项 目 


在 IDEA 中 创建 一 个 Spring MVC 项 目 ( 本 例 中 设置 项 目 名 称 为 PingceSearch)。 在 
IDEA 的 library 中 添加 Spring Framework 的 全 部 依赖 ,如 果 IDEA 并 没有 自动 下 载 这 些 依 
赖 ,可 以 访问 Spring 官网 来 获取 ,相关 页 面 的 URL 为 http://projects. spring. io/spring- 
framework/ 。 打 开 web. xml 配置 文件 ,在 其 中 的 所 web-app 二 过 /web-app 二 标记 中 间 添 加 
如 代码 段 11.4 所 示 的 配置 。 其 中 标记 过 contextrparam 二 一 /context-param 二 中 指定 了 配 
置 文件 dispatcher-servlet. xml 的 存放 位 置 , 一 listener 二 二 /listener 二 中 指定 了 自动 装配 
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dispatcher-servlet. xml 中 配置 信息 的 监听 器 ,一 servlet 二 二 /servlet 二 中 指定 了 处 理 映射 的 
分 发 器 ,二 servletrmapping 二 一 /servlet-mapping 二 指定 了 要 匹配 的 路 径 。 


代码 段 11.4: WEb.xml 配 置 文件 中 添加 的 配置 
<2ml version= "1.0" encoding= "UIF- 8"?> 
< web- app mlns= "http://xmlns.jqp.org/sml/ns/javaee" 
mlns:xsi= "http://www.w3.0rg/2001/xMLSchema- instance" 
xsi :schemalocation= "http://xmlns.jcp.org/xml/ns/javaee 
http://xmlns.jop.org/xml/ns/javaee/web- app 3 1.xsd" 
Version= "3.1"> 
< context— Param> 
<Param name> contextConfigLocationc /param name> 
< param- value> /WEB- INF/dispatcher- servlet.zml< /param- value> 
< /context— Param> 
< listener> 
< listener classy org.springframework.wsb.context.ContextIoaderListener 
< /listener- class> 
< /listener> 
<servlet> 
< servlet— name> dispatcher< /servlet- name> 
< servlet- class> org.springframework.web.servlet.DispatcherServlet 
< /servlet- class> 
< load- on- startup> 1< /load- on- startup> 
< /servlet> 
< servlet— mapping> 
< servlet- name> dispatcher< /servlet- name> 
<url- Pattern> /< /url- pattem> 
< /servlet— mapping> 
< /web- app> 


在 存放 Java 代码 的 文件 夹 (如 src 文件 夹 ) 创 建 一 个 自 定义 反 转 域名 的 包 ( 本 例 中 定义 
为 com. cy. controller, 用 于 存放 属于 自己 的 控制 器 类 )。 在 WEB-INF 文件 来 中 创建 一 个 
views 文件 夹 用 于 存放 前 端 界面 。 在 WEB-INF 文件 夹 中 添加 一 个 dispatcher-servlet. xml 
配置 文件 用 于 配置 自 定义 反 转 域 名 包 的 扫描 路 径 、 启 用 注解 .前 端 页 面 ( 即 视图 ) 的 前 缀 和 后 
缀 等 。 配 置 文件 的 内 容 如 代码 段 11. 5 所 示 。 


代码 段 本 .5: dispatcher servlet.xml 配置 文件 
< 2aml version= "1.0" enooding= "UIFE- 8"2> 
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<beans xmlns= "http://www.springframework.org/schema/beans" 
3mlns:xsi= "http://wmw.w3.org/2001/XMLSchema- instancen 
xmlns:oontext= "http://www. springframework.org/schema/oontext" 
slns :mo "http: //wow. springframework.org/schema /mc" 
xsi:schemalocation= "http://www.springframework.org/3chema/beans 
http://ww. springframework.org/schema/beans/spring- beans.xsd 
http://www. springframework.org/schema/oontext 
http://www.springframework.org/schema/context/spring- context.xsd 
http://www.springframework.org/schema/mvc 
http://www. springframework.org/schema/mvc/spring- mvc.xsd"> 


< context:component- scan base- package= "com.cy.controller"> < /context: 
Corponent- scan> 


<nwc:annotation- driven/> 
< Wc:resouroes mapping= "/js/**" location= "/js/"/> 


<bean id- "ViewResolver" class= "org.springframework.web.servlet .view. 
InternalResouroaViewResolver"> 
< property name= "prefix" value= "/WEB- INE/views"/> 
< property name= "suffix" value= ".jsp"/> 
< /bean> 
< /beans> 


上 述 配置 完成 后 ,整个 项 目的 文件 目录 结构 如 图 11. 5 所 示 。 


v “PingceSearch 
» Mm .idea 
» miib 
vsrc 


» Ml com.cy.controller 


Y Mm WEB-INF 
» Mviews 
蕊 applicationContextxml 
入 dispatcher-servlet-xml 
名 web.xml 
入 Pingcesearch.iml 
* | External Libraries 
号 Scratches and Consoles 


图 11.5 PingceSearch 项 目的 文件 目录 结构 
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11.2.2 前 端 页 面 设计 


在 程序 前 端 初始 页 面 中 放置 一 个 搜索 词 输入 框 和 一 个 "搜索 ?按钮 ,如 图 11.6 所 示 。 


科技 产品 评测 数据 搜索 


马丁 


图 11.6 前 端 初始 页 面 


用 户 在 输入 框 中 输入 搜索 词 后 , 按 回 车 键 或 单 击 * 搜 索 ” 按 钮 ,前端 jQuery 采集 用 户 输 
入 的 搜索 词 ,通过 Ajax 程序 传 到 后 端 Java 控制 器 程序 。 控 制 器 与 Elasticsearch 交互 ,将 查 
询 结果 处 理 后 返回 到 前 端 。 最 后 ,前端 通 过 异步 刷新 将 数据 输出 到 界面 中 。 在 WEB-INF/ 
views 文件 夹 中 创建 前 端 页 面 index. jsp, 该 JSP 文件 内 容 如 代码 段 11.6 所 示 。 


代码 段 11.6: 前 端 页 面 index.jsp 
< $@ page contentType= "text/html;charset= UIF- 8" language= "java" $> 
<html> 
<head> 
<title> 科 技 产 品评 测 数据 搜索 < /title> 
< style type= "text/css"> 
body { 
margin: Opx auto; 
Padding: Opx; 
} 


#main, #result, #detail { 
width: 800px; 
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#kw { 
width: 400px; 
height: 30px; 
line— height: 25pm; 
Padclingr left: Spx; 
white— space: nowrap; 
verflow: hidden; 
Vertical- align: middle; 


#9ubmit { 
tab- index: 1; 
font- size: 12pt; 
vertical- align: middle; 


-a title { 
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text— decoration: underline; 
color: blue; 

font— size: 12pt; 

line height:: 20px; 


} 
-PublishTime { 
color: #555; 
line— height: 25pm; 
font- size: 9.75pt; 
} 
.Content { 
color: #222; 
} 
aurll{ 
text— decoration: none; 
color: green; 
font- size: 9.75pt; 
line- height: 20px; 
} 
.d title { 
font— size: 20pt; 
text- align: oanter; 
line- height: 50pxy 
} 
.d_content { 
font- size: 9.75pt; 
line~— height: 20px; 
} 
Spot { 
color: red; 
} 
Pi 
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</style> 
< script srcr "/pingcesearch/js/jquery 1.11.3.min.js" type= "text/ 
javascript"> < /script> 
< script type= "text/javascript"> 
$ (aocument) .ready (function () { 
$ ("# kw") .focus (); 
$ (#3ubmit") .click(function () { 
Var query= $ ('#kw') .val (); 
$.ajax({ 
type: 'POST', 
contentType: 'text/html;charset= UITF- 8', 
url: '/pingcesearchysearch' 
Gata: query, 
dataType: ‘text', 
Sucoess: function (data) { 
$ (#1ist') .empty(); 
$ ("#1ist') .append (GecodeURI (data) ); 
$ (#main') .slideToggle(); 
$('#result') .slideToggle(); 
}, 
error: function (textStatus) { 
alert ("Error:"+ textStatus); 


D; 
Ds; 
// 返 回首 页 按钮 事件 
$ (#back2index") .click (function () { 
$ (#main") .slideToggle(); 
$ ( 啡 result") .slideToggle(); 
Ds; 
// 返 回 列表 按钮 事件 
$ ("#back2list") .click (function () { 
$ (#result") .sligeToggle(); 
$ (#detail") .sligeToggle(); 
Ds; 
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// 按 


回 车 键 直接 执行 搜索 


functicn exec search() { 


证 indow.event.keycode==13) { 
if (document.all (‘sbmit’) 二 mull) { 
abcument.all ('submit') .click(); 


function viewDetail (strId) { 


$.ajax({ 
type: 'FOST', 
contentType: 'text/html;dharset= UTE- 8", 
url: '/pingoesearch/detail/"', 


data: strId, 

dataType: ‘text', 

Success: function (data) { 
$ ('#item') .empty()7 
$ ('# item') .append (decodeURI (data) ); 
$ ('#result') .slideToggle(); 
$ ('#detail') .slideToggle(); 
$ (window) .scrollTop (0); 

}, 

error: function (textStatus) { 
alert ("Error:" textStatus); 


< /script> 


< /head> 


< body onkeydowr= "exec search();"> 
<div id "main"> 
<div id "title"> 
科技 产品 评测 数据 搜索 


</div> 
<div ic 


"keywordr> 


< input idF "kw" type= "text"> < input type= "button" id= "submit" value= "搜索 "> 


</div> 
< /div> 
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<div id "result"> 
< input typer "button" idF "back2index" value= "返回 首页 ><br/><br/> 
<div id=- "list"> 
</div> 

</div> 

<div id "detail"> 
< input type= "button" id= "back2list" value= "返回 列表 "><br/><br/> 
<div id "item"> 
</div> 

</div> 

< /body> 

</him> 


EP 前 端 页 面 引用 的 jquery-1. 11. 3. min. js 文件 是 一 个 普通 的 jQuery 库 , 以 静态 
文件 的 形式 存放 在 web/js 目录 中 ,其 静态 文件 访问 配置 已 写 在 dispatcher-servlet. xml 
配置 文件 中 。 


11.2.3 后 端 控制 器 类 


默认 情况 下 ,程序 不 能 直接 访问 index 页 面 ,需要 在 com. cy. controller 包 中 编写 一 个 
HomeController 类 ,以 便 项 目 运行 时 可 以 直接 跳 转 到 index 页 面 ,该 类 的 代码 如 代码 段 11.7 
所 示 。 


代码 段 11.7: 跳 转 到 index 页面 的 Hamecontroller 类 
jimport org.springframework. stereotype.Controller; 
import org. springframework.web.bind.annotation.RequestMapping; 


@ Controller 
public class HomeController { 
@ RequestMapping (value= "/") 
Public String home() { 
retum "/index"; 
} 
} 


在 index 页 面 中 ,Ajax 程序 指定 了 数据 交换 的 控制 器 路 径 为 /search, 则 该 页 面 的 后 端 
控制 器 类 应 设置 请 求 映 射 为 /search 并 与 index 页 面 之 间 进 行 数据 收发 。 在 com. cy. 
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controller 包 中 创建 该 页 面 对 应 的 控制 器 类 ,该 类 的 实现 如 代码 段 11. 8 所 示 , 其 中 包含 了 两 
个 提供 搜索 功能 的 方法 (第 一 个 负责 查询 搜索 结果 列表 的 数据 ,第 二 个 负责 查询 一 条 结果 中 
所 有 详细 内 容 的 数据 ) 。 


代码 段 11.8: Searchcontroller 类 

import org.elasticsearch.action.get.GetResponse; 
import org.elasticsearch.action.search.SearchResponsey 
jimport org.elasticsearch.action.search.SearchType7 
import org.elasticsearch.index.query.QueryBuilder; 
import org.elasticsearch.search.SearchHity 

jimport org.springframework.stereotype.Controller; 
jimport org.springframework.web.bind.annotation. * ; 


import java.io.UnsupportedenoodingExoeption; 
jimport java.net .URLEncoder; 
import java.util .Map; 


inport static om.cy.controller.XPackESClient.client; 


@ Controller 
Public class SearchController { 


@ RequestMapping (value= "/search", method= RequestMethod. POST) 
@ ResponseBody 
Public String search (@ RequestBody String query) { 
QueryBuilder qo= queryStringRuery ("title:"+ query); 
SearchResponse response= client .prepareSeardch ("pingoe") 
“setTypes ("_dpc") 
.setSearchType (SearchiType.DES QUERY THEN FETCH) 
-setQRuery (db) 
.3etFram(0) 
-SetSize (10) 
-setExplain (true) 
-gt0); 
SearchHit[] hits= response.getHits() .getHits(); 
Map< String, Cbject> currentHit; 
String _Id, title, publishTime, ontent, url; 
StringBuilder builder= new StringBui lder (); 
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for (SearchHit hit : hits) { 
_Id=hit.getId(); 
CurrentHit=hit.getSouroaAsMap (); 
Publishmime= currentHit .get ("publishTime") .toString(); 
title= currentHit .get ("title") .toString() .replaoeAll (query, 
"< spot> "+ qperyt "< /spo> "); 
url= ourrentHit .get ("url") .toString(); 
content= currentHit .get ("oontent") .toString() .replaoaAll (query, 
"< spot> "+ queryt "< /spot> "); 
builder.append ("< a class= \"a_title\" href= \"javascript:void (0) \" cnclick= \" 
viewDetail ("+ _Idt "')\" target= \"view window\"> "+ Utf8(title)+ "< /a> "); 
builder.append ("<p class=\"publishTime\"> 叶 Utf8(" 发 布 日 期 : ")+ 
PublishTimet "< /p> "); 
builger.append ("< p> "+ Utf8 (content.length ()> 200 ? oontent. 
substring (0, 200)+ ™**" : oontent)+ "< /p> "); 
builger.append ("<a class= \"a url\" href= \md url+ \" target= \"view_ 
Window\ "> "+ url.sibetring(url .indesOf (":")+ 3)+ "< /a> <br/><br/> "); 
} 
retum builder.tostring(); 


@ RequestMapping (value= "/detail", method- RequestMethod.FOST) 
@ ResponseBody 
Public String detail (@ RequestBody String _Id) { 
GetResponse response= client .prepareGet ("pingoe", "_doc", _Id) .get(); 
Map< String, Object> hit= response.getSouroaAsMap(); 
String author, views, oments, publishTime, title, url, oontent, tags; 
StringBuilger builgder= new StringBuilger (); 
author= hit .get ("author") .tostring(); 
PublishTime= hit .get ("publishTime") .toString(); 
Views= hit.get ("views") .toString (); 
omments= hit .get ("oments") .toString(); 
title= hit.get ("title") .tostring(); 
url= hit.get (“url") .toString ()7 
content= hit .get ("content") .toString(); 
tags=hit.get ("tags") .toString(); 
builger.append ("<p class= \"d title\"> "+Utf8(title)+ "< /p> "); 
builder.append ("<p class= \"d ontent\"> + UCB(" 咏 辑 : "author)+ "< /p> "); 


本 
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builder.append("<p class= \"d_content\ 必 只 QUtf8(" 发 表 时间 : ")+ 
PublishTimet "< /p> "); 

builger.append("<p class= \"d_content\"> +Utf8(" 访 问 量 : 由 +views+ 
"gnbep; Sribsp; gribsp; gnbsp; gnibsp; gribsp; Snbsp; Enbsp; ") ; 
builder.append(Utf8(" 评 论 数 : 由 + comments+ "< /> 中; 
builger.append("<p class= \"d_content\ 听 Utf8( 嘛 源 : ")+"<ahref=\" 
ult \" target= \"view windon\ "> "+ urlt "< /a>< /p> "); 
builger.append ("<p class= \"d_content\"> "+ Utf8 (oontent)+ "< /p> "); 
builgder.append ("<p class= \"d_content\"> "+ Utf8(" 味 签 : "+ tags)+ 
只) 

retum builder.toString(); 


Public String Utf8 (String input) { 
String output= ”7 
try{ 
output= URLEncoder.encode (input, "utf- 8"); 
} catch (UnsupportedEncodingException e) { 
e.printStackTrace () 7 

} 

retum output.replaceRll (\\+", " ") .replaoeAll ("%20", " ") .replaoceAll ("$21", "!") 
replaceAll ("%22", "\"") .replaceAll ("%23", 嘲 ") .replaceAll 
("S24", "$") 
-replaceAll ("%25", "$") .replaceAll ("%26", "g") .replaoeAll 
ER 
.replaceRl1 ("$28", "(") .replaoaAll ("$29", ")") .replaosAll 
Ci 
replaceAll ("$2B8", "+ ") .replacaAll ("%2C", ",") .replaoeAll 
(2Dv —") 
replaceAll ("$2E", ".") .replaoeAll ("$2F", "/") .replaoceAll 
wan 
replaceAll ("$38", ";") -replaceRll ("%3C", "< ") .replaoeAl 
1("%3D", =") 
replaceAll (%3E", "> ") .replaoeAll ("%3E", "2") .replaoeAll 
("40", "@ ") 
“replaceAll ("%5B", "[") .replaceAll ("%5C", \\") .replaoeAll 
(%5D", "]") 
replaceAll (%5E", ™") .replaoeAll ("%5F", " ") .replaceAll 
(S60", ™") 
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-replaceRll ("$7B", "{") .replaceAll ("%7C", "|") .replaceAll 
CTD", "}") 
replaceAll ("ST7E", "~"); 


} 


对 上 述 程序 进行 编译 , 打 成 WAR 包 放 到 Tomcat 服务 器 程序 主 目录 下 的 webapps 文 
件 夹 中 。 接 着 启动 Tomcat 服务 器 ,在 浏览 器 地 址 栏 中 输入 http://localhost: 8080/ 
pingcesearch, 即 可 看 到 项 目的 首页 。 例 如 ,输入 搜索 词 “ 魅 族 ? 并 单 击 “搜索 ?按钮 ,页 面 中 即 
出 现 对 应 的 搜索 结果 ,同时 搜索 词 在 搜索 结果 的 标题 和 正文 摘要 中 被 高 亮 ,如 图 11.7 所 示 。 
由 于 该 搜索 程序 全 程 使 用 Ajax 技术 执行 ,页 面 显 示 搜 索 结 果 的 过 程 是 在 单个 页 面 中 执行 
的 ,并 没有 发 生 跳 转 。 


拍照 旗舰 ? 魅族 MX6 体 验 评测 

发 布 日 期 : 2018-08-02 

OHello， 大 家 好 我 是 大 米 ， 又 和 大 家 见面 啦 ， 那 么 今天 大 米 要 给 大 家 带 来 的 是 魅族 MX6 这 款 手 机 的 体验 评测 ， 说 实话 对 于 这 款 手机 来 说 ， 大 
米 可 能 比较 关心 它 的 相机 表现 到 底 如 何 ， 那 么 接 下 来 我 们 就 一 起 来 看 下 吧 ! 视频 评测 : 产品 外 观 : 今年 的 MX6 在 外 包装 上 相 比 以 往 的 MX 系 
列 进 行 还 是 有 明显 变化 的 ， 从 原来 的 书 册 形 式 变 成 了 磁 又 式 的 包 囊 ， 包 装 正面 印 了 一 个 手机 的 轮 订 ;整体 的 外 观 设计 和 之 前 的 P.. 


ve 一 


图 11.7 搜索 结果 列表 页 面 


在 列表 中 单 击 任意 一 条 搜索 结果 的 标题 ,页 面 中 会 显示 出 该 评测 的 详细 信息 。 
113 及 于 Logstash 的 日 志 处 理 


本 节 通 过 配置 相关 文件 来 控制 Logstash 收集 Tomcat 服务 器 用 户 访问 日 志 , 并 将 其 作为 
输入 。 使 用 grok 过 滤器 来 解析 日 志 内 容 , 并 将 处 理 好 的 数据 输出 到 终端 和 Elasticsearch。 在 
Logstash 安装 主 目录 下 的 执行 目录 bin 中 创建 一 个 配置 文件 conf. conf, 以便 供 Logstash 
运行 时 加 载 。 配 置 文件 的 内 容 如 代码 段 11.9 所 示 。 由 于 当前 的 Elasticsearch 集群 配置 了 
X-Pack, 需 要 身份 验证 才能 访问 其 中 的 数据 ,因此 在 配置 Logstash 输出 到 Elasticsearch 时 ， 
需要 额外 配置 用 于 身份 验证 的 账号 和 密码 。 


代码 段 11.9: 控制 Iogstash 输 入 .过滤 、 输 出 的 配置 文件 conf.conf 
input { # 配 置 输入 
file { # 从 文件 输入 
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Path=> ["/usr/apache— tamcat— 7.0.90/1l0gs/localhost acoess log.txt"] 
} 
} 
filter { # 配 置 过 滤 
grok { 
matchr>{ 
”message 一 > 吃 {IEPORHOST:clientip} %{USER:ident} %{USER:auth} 
\ [S$ {HITPDATE:timestarnp}\] 
\" (2:% {WORD: verb} % {URIPATHPARAM: request} (?: HITP/% {NUMBER: httpversion})?|—)\"% 
{NOMBER: response} 
% {NUMBER:responsetime}?|—" 


} 
} 
cutput { # 配 置 输出 
stdout { 
codec= > nibydebug 
} 
elasticsearch { 
hosts=> ["localhost"] 
User= > "elastic" # 指 定 Elasticsearch 安全 集群 的 用 户 身 份 验 证 信息 
Password= > "elastic" 


} 


保存 配置 文件 conf. conf, 使 用 终端 命令 . /logstash -f . /conf. conf 启动 Logstash, 同 时 
加 载 配置 文件 。 自 Logstash 启动 之 时 起 ,每 当 Tomcat 服务 器 日 志 增 加 新 内 容 , 就 会 被 
Logstash 获取 、 处 理 并 传人 Elasticsearch 。 


114 妊 于 Beats 的 数据 传输 


本 节 使 用 Filebeat 和 Metricbeat 来 传输 日 志文 件 和 系统 指标 数据 。 首 先 ,在 Filebeat 
和 Metricbeat 的 配置 文件 中 修改 配置 信息 ,使 其 拥有 向 Elasticsearch 传输 数据 的 权限 。 打 
开 Filebeat 的 配置 文件 /etc/filebeat/filebeat. yml, 将 output. elasticsearch 一 节 中 注释 掉 的 
username 和 password 两 行 取消 注释 ,并 根据 实际 情况 修改 这 部 分 最 后 两 行 的 身份 验证 信 
息 。 对 Metricbeat 的 配置 文件 /etc/metricbeat/metricbeat. yml 也 应 进行 类 似 的 修改 。 这 
两 个 配置 文件 中 修改 后 的 Elasticsearch 输出 部 分 如 代码 段 11. 10 所 示 。 
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代码 段 11.10: 配置 文件 中 Elasticsearch 输 出 部 分 


utput .elasticsearch: 
#Array of hosts to connect to. 
hosts: ["localhost:9200"] 


#0Optional protocol and basic auth credentials. 
#protocol: "httpe" 
username: "elastic" 


password: "elasticn 


修改 配置 文件 后 即 可 运行 Filebeat 和 Metricbeat。 执 行 终端 命令 sudo /etc/init. d/ 
filebeat start 来 启动 Filebeat, 执行 终端 命令 sudo /etc/init. d/metricbeat start 来 启动 


Metricbeat 。 


115 有 基于 Kbana 的 数据 可 视 化 


启动 Kibana, 以 超级 管理 员 身 份 登录 ,在 Management 组 件 的 Create index pattern 界 
面 中 输入 索引 名 称 pingce 来 创建 索引 模式 ,如 图 11. 8 所 示 。 要 创建 的 索引 模式 还 包括 
logstash- x ,filebeat- x 和 metricbeat- x* , 均 以 此 方法 添加 。 


Create index pattern 
Kibana uses Index patterns to retrleve data from Elasticsearch indices for things like visuallzations. 


Step 1 of 2: Define index pattern 
Index pattern 
pingcel 


You can use a * as a wildcard in your index pattern. 
You can't use empty spaces or the characters \, /,?, ", <, >, |. 


YY Success! Your index pattern matches 1 index. 


pingce 


Rows per page: 10 ~ 


图 11.8 创建 索引 模式 
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11.5.1 可 视 化 索引 文件 中 的 信息 


下 面 对 索 引 pingce 中 的 文档 数据 进行 统计 。 首 先 创建 一 个 面积 图 ,在 Visualize 中 选择 
Area chart 选项 ,设置 横 轴 聚合 方式 为 Date Histogram, 在 Metrics && Axes 的 Line Mode 
中 选择 stepped, 其 他 选项 保留 默认 设置 . 单 击 国 按 钮 生成 统计 图 ,如 图 11. 9 所 示 。 该 图 直 
观 地 反映 了 评测 文章 发 表 的 数量 随时 间 的 变化 情况 。 


9 © @count 


Count 


publishTime per week 


图 11.9 评测 文章 发 表 数量 面积 图 


接着 对 该 索引 中 的 两 种 数值 型 数据 访问 量 和 评论 数 按 不 同 的 计数 范围 进行 统计 。 这 里 
以 访问 量 为 例 创建 一 个 饼 图 ,在 Buckets 设置 中 选择 聚合 方式 Range, 在 Field 中 选择 字段 
views, 并 在 下 方 设置 多 个 计数 范围 ,如 图 11. 10 所 示 。 


From To 
0 4999 四 
5000 9999 [9 
10000 14999 (x) 
15000 19999 (x] 
20000 24999 四 
25000 29999 [9 
30000 六 国 


图 11. 10 为 饼 图 设置 聚合 的 计数 范围 
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完成 上 述 设置 后 , 即 可 得 到 如 图 11. 11 所 示 的 饼 图 。 从 图 中 可 以 看 出 ,评测 文章 的 访问 
量 大 多 在 15 000 次 以 内 ,其 中 获得 5000 一 10 000 次 访问 的 评测 文章 最 多 。 


© ©0to4999 


®@5,000to9,999 

®@ 10,000 to 14.999 
®@15,000to 19.999 
®@ 20,000 to 24.999 
®@ 25,000 to 29,999 
@30,000to+m 


图 11.11 评测 文章 访问 量 饼 图 


以 类 似 的 方式 也 可 以 创建 评测 文章 评论 数 的 饼 图 。 最 后 将 4 种 统计 图 放 入 一 个 动态 仪 
表 板 中 并 保存 ,如 图 11. 12 所 示 。 


pingca_area 9 
© ecourr 
| 国 

20171201 20180101 201807- 20180401 20180501 20180601 201 ns 91 20180801 
“pubishrime per week 
pingce ple_comments © | pinace_pie views o 


11.12 索引 pingce 的 可 视 化 展示 


11.5.2 对 Logstash、Beats 的 可 视 化 展示 
接 下 来 对 索引 logstash- * ,filebeat- * 和 metricbeat- * 的 文档 数据 进行 统计 。 首 先 创 
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1365) 


建 一 个 折线 统计 图 ,在 Visualize 组 件 中 选择 Line chart, 设置 横 轴 聚合 方式 为 Date 
Histogram, 其 他 选项 保留 默认 设置 , 单 击 国 按钮 生成 统计 图 ,如 图 11. 13 所 示 。 该 图 直观 
地 反映 了 搜索 引擎 项 目 中 访问 量 随时 间 的 变化 情况 。 


9 © © Count 
15 
兰 10 
3 
3 
5 
5 
20:05:00 20:10:00 20:15:00 20:20:00 
@timestamp per 30 seconds 
© 


图 11.13 搜索 引擎 项 目 访问 量 随时 间 变 化 的 折线 图 


接 下 来 创建 饼 图 ,对 Filebeat 在 不 同日 志文 件 中 采集 到 的 信息 量 进 行 统 计 。 在 饼 图 的 
Buckets 设置 中 选择 聚合 方式 Terms, 在 Field 中 选择 字段 Source, 其 他 选项 保留 默认 设置 ， 
生成 后 的 饼 图 如 图 11. 14 所 示 。 该 图 显示 ,Filebeat 采集 了 两 种 日 志文 件 的 数据 ,前 级 为 
catalina 的 两 个 日 志文 件数 据 量 较 大 .而 前 级 为 localhost 的 两 个 日 志文 件数 据 量 较 小 。 


© /usr/apache-tomcat-7. 


\ ®@ /usr/apache-tomcat-7. 


图 11.14 Filebeat 采集 日 志 来 源 饼 图 


创建 Metricbeat 采集 数据 的 时 间 线 ,在 Visualize 组 件 中 创建 一 个 Timeseries, 在 
timelion expression 输入 框 中 输入 如 下 查询 表达 式 : 


-es (index= "metricbeat- * ',timefield= '@ timestanp') 
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设 定时 间 间 隔 为 分 钟 ,运行 该 查询 表达 式 , 可 以 得 到 如 图 11. 15 所 示 的 时 间 线 。 图 中 清 
晰 显示 了 Metricbeat 执行 采集 和 传输 任务 最 集中 的 时 间 段 。 


@ 1z0 


国 q* > count 


19:10 19:20 19:30 19:40 19:50 20:00 2010 20:20 20:30 20:40 20:50 


图 11.15 Metricbeat 采集 数据 的 时 间 线 


在 上 述 统计 图 表 之 外 ,也 可 利用 饼 图 来 统计 Logstash、Filebeat 和 Metricbeat 在 不 同时 
间 段 采集 的 文档 数量 ,创建 方法 与 11. 5. 1 节 中 饼 图 的 创建 方法 类 似 ,只 需 执 行 Date Range 
聚合 将 数值 换 成 时 间 即 可 。 针 对 各 个 饼 图 也 可 以 创建 统计 数值 以 显示 各 自 的 文档 总 数 。 最 
后 将 创建 的 各 种 可 视 化 统计 图 表 放 入 动态 仪表 板 , 如 图 11. 16 所 示 。 


log ine © | niebeat pe © | memcbeat unehon o 
0 i 1 
9 © om oo 
2 A et ‘0 -re 
B20 天 
10 30 
o 的 
0 0 训 轴 
@timestamp per minute a 
metricbeat_metric © | flebeat metric 碍 | metricbeat ple state ¢ 


© Oveeping 
S73 芒 OO 


图 11.16 有 关 Logstash 和 Beats 的 可 视 化 展示 
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登录 Kibana, 单 击 界面 左 侧 导航 栏 中 的 Monitoring 导航 按钮 , 即 可 查看 Elasticsearch 
和 Kibana 当前 的 总 体 运行 状态 数据 ,如 图 11. 17 所 示 。 
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Verslon 
Uptime 


Jobs 


Max. Response Time 


医 Kibana ® Healthisgreen 


Overview 
| Requests 1 
50 ms 


医 Elasticsearch 。 Healthisgreen 


Nodes: 2 


Disk Avallable 


JvM Heap 


74.88% 
42GB / 56GB 


45.43% 
900MB / 2GB 


Instances: 1 


Connectlons 


Memory Usage 


Indices: 22 
Documents 49,109 
DiskUsage 97MB 
Primary 60 
Shards 


Replica Sshards 60 


13.43% 
192MB/1GB 


图 11.17 系统 总 体 运行 状态 数据 


在 Elasticsearch 的 索引 文件 列表 中 ,可 以 查看 索引 文件 pingce 的 运行 状态 ,如 图 11. 18 
所 示 。 图 中 的 Search Rate 折线 图 反映 了 项 目 中 执行 搜索 的 情况 ,其 余 图 中 的 线 保持 稳定 


值 不 变 。 


Index Memory (KB) @ Disk(KB) 0 
2 os 
977@ mam FF 
13 | 
5 | | 
man DE i | | 5 | | 
aa | | | sm ad a eh 
oa 3 
EE EE 但 和 5 ”00 ”各 W010 ”Ni15 60” 加 加 和 0” 3035 
@ lucereToal 1045K9 © fem 736KS Pants 31008 @ sore 1 ® seore Port 709 KB 
Search Rate (/s) @ IndexingRate(/s) . 
[| 1 [ 
5 | 
2 | 
1 
sn | 
| 
om a | 
ES 5 WM 0 0 0 OD 0 N30 W035 
@ Tot Shards 0 @ Tea Shards 0 ® Pimaryshards ok 
Segment Count @ ”Document Count e 
5 的 
一 一 一 一 一 
和 
0| 和 | 
3 n 
» » | 
25 
wT - 本 二 mL 一 
时 到 1 区 二 到 击 动 巧 动 莘 过 于 EE EEE 击 击 25 动 划 过 于 
@ Prmanes 25 tot so ® pomumert Count 
图 11.18 Elasticsearch 的 索引 文件 pingce 的 运行 状态 
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折线 图 下 方 展示 了 Elasticsearch 节点 中 不 同 分 片 的 运行 情况 ,如 图 11. 19 所 示 。 从 图 
中 不 难看 出 ,系统 中 开启 了 两 个 节点 ,每 个 节点 中 5 个 分 片 均 工 作 正 常 。 


Shard Legend 
图 Primary 图 Replica 图 Relocating 图 Initializing 图 Unassigned Primary 力 Unassigned Replica 


Nodes 


Comgoo Eggggg 


图 11. 19 节点 和 分 片 运行 状态 


在 Indices 列表 中 单 击 filebeat- * 索引 可 以 查看 Filebeat 组 件 的 运行 状态 ,如 图 11. 20 
所 示 。 其 中 的 Search Rate 图 线 的 数值 基本 为 零 ,表示 之 前 基本 没有 对 Filebeat 的 查询 。 从 
其 他 折线 图 的 走势 中 均 可 看 出 由 于 Filebeat 对 日 志 数 据 的 处 理 而 产生 的 性 能 波动 ,从 
Document Count 中 可 以 看 出 采集 处 理 的 信息 正 处 于 一 个 不 断 增长 的 趋势 ,这 从 侧面 反映 了 
Elasticsearch 正 不 断 处 理 来 自 客户 端的 搜索 请 求 。 


Index Memory (KB) 日 Disk (KB) @ 
1455K9 T8138 I 
se59KD 
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Da 15 
an | 
1 
oa 
ee 056 
oo | 
os 
EEE NE EEE EE 0 90 2010 2015 D0 2 
oalshards 0 T ® Pnmary shards os 
Segment Count 上 
[一 
| 
or 
wn 
wo 
| 
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人 35200 05 2010 05 ”60 ”加 和 3 ”00 ”0 人 5 200 ”加 娩 2010 2015 3620 2025 3020 ”2035 
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图 11. 20 ”Filebeat 运行 状态 


在 Monitoring 程序 界面 中 单 击 Kibana 的 Instances 链接 ,可 查看 Kibana 实例 的 运行 
状态 ,如 图 11. 21 所 示 。 其 中 的 System Load 折线 图 反映 了 系统 负载 基本 处 于 较为 平稳 的 
状态 ,从 甚 余 折 线 图 中 也 可 以 看 出 系统 响应 和 连接 相关 指标 走势 情况 。 
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图 11.21 Kibana 实例 运行 状态 


117 扩展 知识 与 阅读 


Selenium 是 一 个 用 于 Web 应 用 程序 测试 的 工具 。Selenium 测试 直接 运行 在 浏览 器 
中 。 有 关 Selenium 的 详细 内 容 可 参阅 官网 http://www. seleniumhq. org/。 另 外 ,文献 ( 曾 
宪 杰 ,2014) 给 出 有 关 大 型 网 站 系统 与 Java 中 间 件 的 相关 实践 技术 ,而 有 关中 间 件 的 理论 背 
景 可 参阅 文献 (Andrew,2007) 。 除 此 之 外 ,软件 负载 中 心 与 集中 配置 管理 也 是 需要 考虑 的 
问题 。 


118 本 章 狼 结 


本 章 给 出 一 个 基于 6. 2 版 Elasticsearch、Logstash、Kibana、X-Pack 和 Beats 的 网 络 信 
息 检 索 .日 志 分 析 及 可 视 化 管理 的 工程 实例 。 其 中 ,网 络 信息 采集 是 利用 Selenium 模拟 完 
成 的 ,随后 将 采集 到 的 信息 后 存 和 人 Elasticsearch 索引 中 ;日 志 分 析 使 用 的 是 Logstash ,依照 
配置 文件 中 的 配置 信息 进行 日 志 信息 的 输入 .解析 和 输出 ;日 志文 件 和 系统 指标 数据 利用 
Beats 相关 组 件 传输 到 Elasticsearch 索引 中 ;由 Kibana 完成 各 个 索引 中 文档 数据 的 可 视 化 
展示 ;对 于 Elasticsearch 索引 运行 状态 .Logstash 数据 处 理 情况 以 及 Kibana 实例 运行 状况 
等 的 图 形 化 监控 ,使 用 X-Pack 中 的 Monitoring 程序 完成 。 通 过 对 本 章 的 学 习 , 希 望 读 者 对 
Elastic Stack 全 套 组 件 的 开发 和 运作 有 进一步 的 了 解 ,以 便 在 今后 的 实战 环境 中 熟练 使 用 
大 数据 搜索 与 分 析 相 关 工 具 解 决 实际 项 目 中 的 问题 。 
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